本福德定律
本福德定律是一个关于真实数据集中前位数的数学定律。当我们考虑一些数字的第一位时,1到9出现的概率应该是相等的,约为11.1%。令人惊讶的是,事实并非如此。
本福德定律指出,在许多自然出现的数字集合中,前导数字(数字的第一位)出现的概率不想等。前导1比2更常见,前导2比3更常见,以此类推。
本福德定律指出,如果一组数的前导数d(∈1,…,9)与等式同时出现,则称该数满足本福德定律。

由这个方程,我们得到了前导数的以下分布。

根据这个分布,我们可以预测1作为前导位的概率比其他数高30%。该定律可以用在许多地方,例如税务表格、选举结果、经济数字和会计数字上的欺诈检测。
大数定律
大数定律指出,随着随机过程试验次数的增加,其结果的平均值会越来越接近期望值或理论值。
例如,掷骰子的时候。得到的可能结果是1到6,平均值是3。5。当我们掷骰子时,我们得到的数字将是随机的(1到6)。当掷骰子的次数越多,结果越接近期望值,即3.5。这就是大数定律。
虽然它很有用,但这里的棘手之处在于你需要进行许多实验。大数定律与平均定律不同,平均定律是用来表达一个信念,即随机事件的结果会在一个小样本内“持平”。这就是我们所说的“赌徒谬误”,我们期望期望值会出现在较小的样本中。
齐普夫定律
齐普夫定律是为定量语言学而创立的,即给定一些自然语言数据集语料库,任何单词的频率都与其频率表的排名成反比。因此,最常见的单词出现频率大约是第二常见单词的两倍,是第三常见单词的三倍。
例如,在Spotify数据集中,我将尝试拆分所有的单词和标点符号来计算它们。以下是12个最常见的单词及其使用频率。

我们可以通过计算这些事件发生的概率来判断齐普夫定律是否适用于这个数据集。第一个出现频率最高的单词或标点是' - '和32258,它的概率是4%,然后是' The ',它的概率是2%。根据定律,某些词的概率会一直下降。当然,有一点偏差,但是概率会随着频率的增加而下降。