相关数据包
目录
分布
连续型变量的分布
正态分布
正态分布的推导
正态分布密度曲线
dnorm
正态分布的概率计算
正态分布累积曲线
总体分位数和尾概率
正态分布案例之一
R语言正态分布函数
正态分布相应的概率计算
正态分布的检验
shapiro.test()函数
Kolmogorov-Smirnov连续分布检验
KS的第二案例应用
总结
1.dnorm()函数
2.pnorm()函数
3.qnorm()函数
4.rnorm()函数
分布
表示分布最常用的方法是直方图(histogram),这种图用于展示各个值出现的频数或概率。频数指的是数据集中的一个值出现的次数。概率就是频数除以样本数量n。
用表示概率的直方图称为概率质量函数(Probability Mass Function, PMF)。这个函数是值到其概率的映射。
连续型变量的分布
连续型变量是在连续区间取值,例如质量、长度、面积、体积、寿命、距离等就是连续型变量,现在试想一下连续变量观测值的直方图;如想其纵坐标为相对频数,那么所有这些矩形条的高度和为1,那么完全可以重新设置量纲,例这些矩形条的面积为1,如果不断增加观测值,并不断增加直方图的矩形条的数目,这些直方图就会越来越像一条光滑曲线,其下面的面积和为1,这种曲线就是概率密度函数(probability density function, pdf),简称为密度函数或密度,下图就展示了逐渐增加矩形条数的直方图和一个形状类型的密度曲线:
par(mfrow=c(2,2))
x=rnorm(10000)
z<-seq(-4,4,length=10000)
hist(x,20,probability=T,col=2)
hist(x,50,probability=T,col=2)
hist(x,100,probability=T,col=2)
plot(z,dnorm(z),type="l",
xlab="x",ylab="Density Function",
bty="n",
main="Dencity Function of x")
什么是密度?
这里说一下密度,密度是描述变量分布的一个重要概率,简单地说,它描述变量取各个值的可能性大小,变量在密度曲线高的位置取值的可能性比在低的位置取值的可能性大。在概率密度曲线中,纵坐标就是密度(Density)。
而密度曲线(density curve)是分布的一个数字模型,按照定义,任何密度曲线下的总面积都是1,在一个区间的密度曲线下的面积为出现在这个区间中的观测值占所有观测值的比例。
在矩形面积和为1的直方图中,连续变量落入某个矩阵的概率为该矩形的面积,类似地,连续变量落入一个区间的概率就是概率密度函数曲线在这个区间上所覆盖的面积,也就是密度函数在这个区间上的积分,根据初等微积分,连续函数在一个点的积分是0(因为曲线下面的面积退化成一条垂直于x轴,平行于y轴的直线),因此对于连续变量,取任何一个单独特定值的概率都是0,而只有变量取值于某个(或若干个)区间的概率才有可能大于0。连续变量和离散变量类似,它的密度函数(这时用f表示随机变量X的密度函数)必须满足f(x)≥0f(x)≥0,而且密度曲线下面覆盖的总面积为1,即:
而X落入区间(a,b)的概率则为:
连续变量也有累积分布函数(cumulative distribution function, CDF),定义为:
这样,和离散变量一样,如果要求P(a 而不用根据密度函数求积分了。 连续随机变量也有描述变量“位置”的总体均数、总体中位数、总体百分位数以及描述变量分布(集中)程度的总体标准差和总体方差等概念,对于连续分布随机变量X,它的总体均值(通常用μ表示)定义为: 这也称为X的数学期望,变量X的总体方差(通常用δ2δ2表示),定义为: 总体标准差定义为总体方差的平方根,如下所示: 正态分布 下图是四个二项分布图,这四个二项分布有共同的p=0.1,但是有不同的n,分别为5,20,50,500,可以看出,当n较小时,分布很不对称,当n增加时,分布变得对称,实际上,当n充分大时,二项分布趋向于一个连续型对称分布,这就是正态分布(normal distribution),如下所示: n<-c(5,20,50,500) p<-0.1 par(mfrow=c(2,2)) barplot(dbinom(0:n[1],n[1],p),main="Binomial(5,0.1)") barplot(dbinom(0:(2*floor(2*n[2]/5)),n[2],p),main="Binomial(20,0.1)") barplot(dbinom(0:(floor(n[3]/3)),n[3],p),main="Binomial(50,0.1)") barplot(dbinom(25:75,n[4],p),main="Binomial(500,0.1)") 在实际生活中,近似地服从正态分布的变量也很常见,例如测量误差,商品的重量或尺寸,某特定人群的身高和体重等,此外,在一定条件下,许多不是正态分布的样本均值在样本量很大时,也可用正态分布来近似估计。 正态分布也是一族分布,不同的正态分布根据它们的均值和标准差不同而有所区别,因此一个正态分布用N(μ,δ)N(μ,δ)表示,其中μμ是总体均值,而δδ是总体标准差,正态分布也常用N(ν,δ2)N(ν,δ2)来表示,这里的δ2δ2为总体方差,这些总体参数在实际问题中是未知的,但可以估计,例如用样本均值和样本标准差来估计总体均值和总体标准差,正态分布的密度曲线是一个对称的钟形曲线(最高点在均值处) 正态分布的推导 在理解正态分布的时候,如果知道它的推导过程,以及曲线下面积是如何求的,就会对正态分布的理解更深入,但是这涉及到一定的数学知识,包括大数定量,微积分等,目前我没有能力理解这些,具体的可以看陈希孺的《概率论与数理统计》等资料。不过真正用这个函数来计算正态变量概率数值的情况不多,多数直接采用累积分布函数来计算的。 正态分布密度曲线 dnorm