一篇文章教你看懂“正态分布”

在分享本篇文章之前写点题外的话,其实波波本身并不是什么好学生,所以从小学到大学,学霸这个称号从来都是别人家的孩子的。也甚至可以说从小学一直到大学毕业数学都没有及格过,所以心中一直觉得非常遗憾的一件事就是高考那年数学考了34分,但好在我的其他科目成绩都还好,所以在三本和好大专之间选了个“好大专”。

现在毕业已经7年了,想想自己一个人在郑州打拼的7年光阴,没有人知道在我身上发生过什么。尤其是最近越来越感觉到数学的重要性,甚至可以说数学是一切科学的本源。从程序开发、算法设计到细胞质结构、分子无一不渗透着数学的影子,所以最近也是在恶补那些失去的时光——大学的数学。

“名师出高徒”此话一点儿也不假。从我自身而言,上学那段时间我不知道在其他人眼中是什么样的,但是从我自己的心里说,我是很认真的在学习。但是即使是很认真,但是还是没学会。而网易TED的数学课程我却是一听就能立即明白。我之所以在写这篇文章的开始分享这些,也是因为自己有了孩子,也希望自己的孩子以后能接受好的教育。孩子学不会,很多时候并不是孩子的问题。

好了开始正文。

正态分布是统计学中的一种,也称为“常态分布”。所以既然是常态分布那么就意味着这种统计在我们的生活中非常常见。比如男女的身高、考试的成绩、人的寿命、交通拥堵状况分析......

以前我一直认为像这样的统计直接不同阶段算出来就可以了,处于中间多数的一般都是事务存在的常态,两边过高或过低在整个统计中都是少数。因此导致了正态分布在生活中非常常见。直到在TED上听了《中心极限定理》后,才改变了我的这一看法。

我们看下图:

在上图中我们不难看到在对某一个体进行数据统计的时候,很难看出他在群体中有那些共性,但是随着统计个数的增加,这种共性就表现的越明显,就像人的身高一样,一个人不管身高多少,很难看出这个人是不是群体中的“大众身高”,但是随着统计人数的增加,我们就很容易看出人的身高集中表现在多少,同时随着统计人数的不断增加,那么这个统计图表将越来越接近“正态分布图”就是本文中第一张图表现的那样。

在这个例子中,人的身高可能受到先天基因的因素、也可能受到后天营养等诸多不特定的因素,但不管是什么因素,也不管这些因素有多少,一个人的身高肯定是这所有因素合在一起在这个人身上的表现。符合正态分布。

所以中心极限定理就是:如果一个事务受到诸多因素的影响,不管因素本身是什么分布,它们加总后的平均值符合正态分布。

读到这里,可能有部分人会存在一个疑问,正态分布是对称的,但是在实际生活中很多分布是不对称的。比如穷人和富人。我们看下世界上穷人和富人的分布图:

在现实中富人的有钱程度要远远超过穷人,甚至富人的有钱程度要高出穷人的贫穷程度几万倍不止,所以在财富的右侧会出现长长的“尾巴”。

那么,为什么一个人的财富也受到了很多因素的影响,却不是正态分布呢?

原因是因为正态分布只适合种种因素累加的情况,如果影响一个事务的因素不是种种累加而是相互影响,那么就不是1+1=2的问题了。

  1. 影响一个人财富的因素:
  2. 1、家庭
  3. 2、教育
  4. 3、工作
  5. 4、运气
  6. 5、......

比如影响一个人财富的因素,他们不是相互独立的,而是层层影响,彼此加强。如果你出生在一个上层家庭,那么你所受的教育要比普通家庭孩子所受的教育好的多,那么好的教育条件无论对于孩子的创业还是高薪就业都是起到积极作用的。所以在这种情况下1+1要远远大于2.

在统计学中,如果影响一个事务的各种因素不是相加而是相乘,那么最终的呈现结果就不再是标准正态分布了,而更符合对数正态分布。

这就是说财富的对数值符合正态分布,因此财富曲线的左侧比较窄,右侧出现长尾。

在实际应用中,我们对一些目标进行统计的时候选择什么样的算法至关重要。鉴于波波是做程序开发的,随后会分享如何用代码实现统计中的正态分布以及数据可视化。敬请关注!

你想把广告放到这里吗?

发表评论

您必须 登录 才能发表留言!