第五章水文统计的基本知识及方法
研究内容:
主要有频率计算与相关分析。
频率计算,包括随机变量及其概率分布、水文频率曲线、适线法等;
相关分析,包括简相关与复相关。
研究目的:
研究河川径流的统计规律,预估径流的变化趋势,以满足水利水电工程规划、设计、施工和运行管理的需要。
第一节概述
概率论与数理统计是一门研究客观事物偶然性(随机性)规律的学科。由于水文现象一般都具有偶然性的特点,所以,可以用数理统计的原理和方法分析研究它的变化规律。这种方法称为水文统计法。
工程水文计算中运用水文统计法,不仅合理,而且是必要的。例如,流域开发,首先要搞清未来河流水量的多少;设计拦河坝、堤防工程需要知道未来时期当地洪水的大小。这些都要求对未来长期的径流形势做出估计。如果所建工程计划使用100年,那么就要对未来100年的径流形势做出估计。但是,由于影响径流的因素众多,难以基于必然现象的规律,应用成因分析法对径流做出这样长期的时序定量预报,而只能基于统计规律,运用数理统计方法对径流做出概率预估,以满足工程设计的需要。
第二节概率的基本概念
一、试验和事件
在概率论中, 对随机现象的测验叫做随机试验,随机试验的特点是限定条件,重复做。随机试验的结果称为事件。根据事件发生的可能性,事件可以分为三类:
1、必然事件:在一定试验条件下,试验结果中必然会发生的事件;
2、不可能事件:在一定试验条件下,试验结果中决不会发生的事件;
3、随机事件:在一定试验条件下,试验结果中可能发生也可能不发生的事件。
二、概率
随机事件出现的可能性或机率叫概率。随机事件A发生的概率用P(A)表示,以百分数计。
显然,必然事件概率为1;不可能事件的概率为0;随机事件的概率介于0和1之间。
如果某试验可能发生的结果总数是有限的,并且所有结果出现的可能性是相等的,称之为古典概型事件。在古典概型事件中,如果可能发生的结果总数为n,而事件A有其中的m个结果,则随机事件A发生的概率P(A)为:
P(A)=m/n 5-1
水文事件一般不能归为古典概型事件。它们的概率一般只能通过多次观测试验来推求,这种概率称为经验概率,也称频率。
三、频率
设事件A在n次重复试验中出现了m次,则比值:
W(A)=m/n 5-2
称为事件A在n次试验中出现的频率。频率在一定程度上反映了事件出现的
可能性大小。事件A发生的概率是理论值,而频率是经验值,在试验中事件发生的频率通常不等于概率。但随着试验次数的增加,频率有趋近概率的规律。这一点不仅可以从理论上证明,如大数定理,而且可以通过随机试验验证,如掷硬币试验。因此,水文上常用事件发生的频率作为概率的近似值。
四、概率加法定理和乘法定理
1、概率加法定理
事件(A+B)表示事件A与B的和事件,包括事件A发生或事件B发生以及两事件同时发生。加法定理公式:
P(A+B)=P(A)+P(B)-P(AB) 5-3 式中: P(A+B)-事件A与事件B的和事件发生的概率;
P(A)-事件A发生的概率;
P(B)-事件B发生的概率;
P(AB)-事件A与B同时发生的概率。
若事件A与B不可能同时发生,则称为互斥事件。互斥事件加法定理公式:P(A+B)=P(A)+P(B) 5-4
2、概率乘法定理
两事件积的概率,表示两事件共同出现的概率,它等于其中一事件的概率乘以另一事件在前一事件发生的条件下发生的条件概率,即:
P(AB)=P(A)×P(B︱A) 5-6 或P(AB)=P(B)×P(A︱B) 5-7
若事件A的发生对事件B发生的概率没有影响,即:P(B︱A)=P(B)或P(A︱B)=P(A),则称这两个事件是相互独立的;它们共同出现的概率等于事件A的概率乘以事件B的概率,即
P(AB)=P(A)×P(B) 5-5
第三节随机变量及其概率分布
一、随机变量
表示随机试验结果的量称为随机变量,常用大写英文字母来表示,并用相应的小写字母来表示随机变量的具体取值。
随机变量可分为两类:即离散型随机变量和连续型随机变量。
1、离散型随机变量:若随机变量仅能取得某区间内的一些间断的数值,则称为离散型随机变量;
2、连续性随机变量:若随机变量可以取得某区间内的任何数值,则称为连续性随机变量。
随机变量取值的全体称为总体,总体中的一部分称为样本。
二、随机变量的概率分布
随机变量可以取得总体中的任何值,但是取某一值都有一定的概率,随机变量的取值与取该值的概率之间有一定的对应关系。这种对应关系称为概率分布。
1、离散型随机变量概率分布的表示
离散型随机变量的概率分布一般以分布列表示,如表5-3-1。
表5-3-1离散型随机变量及其概率分布
2、连续型随机变量概率分布的表示
对于连续型随机变量,其取值是无限多的,恰好取某个值的概率都非常小,趋近于零,因此,讨论这样的问题没有意义,一般研究区间概率问题。水文学关心随机变量取值大于等于某一定值的概率,即P(X≥x),而该概率是x的函数,由此,定义了分布函数和密度函数。
①、分布函数
设事件X≥x 的概率用P(X≥x)来表示,它是随随机变量取值x而变化的,所以p(X≥x)是x的函数,称为随机变量x的分布函数,记为F(x),即:
F(x)=P(X≥x)
它代表随机变量X取值大于等于某一定值x的概率。其几何图形如图5-4(b)所示,图中纵坐标表示变量x,横坐标表示概率分布函数值F(x),在数学上称此曲线为概率分布曲线,水文统计中称为频率曲线。
②密度函数
为了应用方便,人们又定义了密度函数。分布函数一阶导数的负值称为密度函数,记为f(x),即:
密度曲线的图形习惯以纵坐标表示变量x ,横坐标表示概率密度函数值f(x),如5-4(a)所示。
显然,分布函数与密度函数有以下关系:
F(x)=P(X≥x)=(5-10)
其对应关系可在图5-4中看出来。
图5-4(a)概率密度函数(b)概率分布函数
三、随机变量的统计参数
表示随机变量统计特征的数字,称为随机变量的统计参数。
统计参数有总体统计参数与样本统计参数之分。水文计算中常用的统计参数有均值、离差系数和偏差系数。
1、均值(平均数)
均值表示随机变量的平均水平,反映其位置特征。
对于离散型随机变量其均值为 :
(5-11)
式中x i-随机变量的某一具体取值;
P
-随机变量取第i个值的概率。
i
如果取值为等概率,其均值即为算术平均数:
对于连续型随机变量,其均值用期望值E(x)表示:
E(x)=(5-12)
式中a是总体的最小值,b是是总体中的最大值
2、离差系数
随机变量的离散特征一般用均方差表示:
(5-13)
均方差越大表示离散程度越大。但是,当随机变量量纲不同时,均方差则难以反映离散程度的大小。因此,水文学定义离差系数表示离散程度。
水文计算中用均方差与均值之比作为衡量系列相对离散程度的一个参数,称为离差系数,用Cv表示,其计算式为:
(5-14)
式中Ki=xi/,称为模比系数。
3、偏差系数
偏差系数作为衡量随机变量取值对称特征的参数,用C
S
表示,其计算式为:
(5-15)
当随机变量取值对于对称时,C
S
=0;当随机变量取值对于不对称时,称
为有偏。这时,C
S ≠0;若C
S
>0,称为正偏;若C
S
<0,称为负偏。
三、几种常用的概率分布曲线
水文上把常用的随机变量概率分布曲线称为水文频率曲线,我国统计中广泛应用的频率曲线有两种类型,即正态分布和皮尔逊Ⅲ型分布。我国水文计算中常用的频率分布线型为皮尔逊Ⅲ型(P-Ⅲ型)。
(一)正态分布
正态分布具有如下形式的概率密度函数:
其中:(-∞﹤x﹤+∞)(5-16)式中:—均值;
σ–均方差;
e - 自然对数的底。
正态分布的密度曲线有以下几个特点:
①单峰;
②对于平均数对称,C
S =0;C
S
>0,正偏;C
S
<0,负偏;
③曲线两端趋于±∞,即以x轴为渐近线。
正态分布密度函数中只包含两个参数:均值和均方差σ。可以证明:
①
②
上式说明±σ区间的面积占全面积的68.3%(见图5-10),±3σ区间的面积占全面积的99.7%。换言之,服从正态分布的随机变量,取值在±σ区间的概率为68.3%,取值在±3σ区间的概率为99.7%。正态分布的上述性质经常用于误差分析。
图5-10 正态分布密度曲线
(二)皮尔逊Ⅲ(P-Ⅲ)型曲线
1、皮尔逊Ⅲ型曲线的概率密度函数
皮尔逊Ⅲ型曲线是一条一端有限一端无限的不对称单峰、正偏曲线(见图5-11),其概率密度函数为:
(4-4-2)
式中:Γ(α)―α的伽玛函数;
α、β、a0―分别为皮尔逊Ⅲ型分布的三个参数。
图5-11 皮尔逊Ⅲ型概率密度曲线
显然,三个参数确定以后,该密度函数随之确定。可以推证,这三个参数与常用的三个参数、Cv、CS具有如下关系:
因此,皮尔逊Ⅲ型频率曲线的密度函数可表示为以、Cv、CS为参数的函数
。
2、皮尔逊Ⅲ型频率曲线及其绘制
水文计算中,一般需要求出指定频率P所对应的随机变量取值xp,这就需要对密度函数进行积分,确定其下限xp,即:
(5-18)
令,可变换成下面的积分形式 :
(5-19)
,其它两个参数、Cv都包含式(5-19)中被积函数只含有一个待定参数C
S
在中,是标准化变换。因此,只需要给定一个Cs值,便可从式(4-4-7)通过积分求出P与之间的关系值。
对于若干个给定的Cs值,P与的对应值可制成表,该表已先后由美国福
斯特和前苏联雷布京制作出来,见附表2皮尔逊Ⅲ型频率曲线的离均系数值表,查表可由C
S
求出相应频率的值,进而可计算出该频率对应的x值:
附表2 皮尔逊Ⅲ型频率曲线的离均系数值表(摘录)
例题:
(1)已知某地区多年平均年降雨量=1000mm,Cv=0.5,Cs=1.0,设年降雨量的概率分布符合皮尔逊Ⅲ型,试求概率P为1%的年雨量值。
由C
S =1.0, P=1%查Φ值表,得Φ
1%
=3.02,所以
X 1%=(Φ
1%
Cv+1) =(3.02×0.5+1)×1000mm=2510mm
(2)已知某流域最大1日雨量的=80.0mm,Cv=0.5,Cs=3.5 Cv,则该流域P=1%的最大一日雨量为多少?
Cv+1) =(2.74
3、皮尔逊Ⅲ型频率曲线的应用
在频率计算时,由已知的C
S
值,查值表得出不同的P的值,然后利用已知的、Cv,通过公式即可求出与各种P相应的x值,从而可绘制出皮尔逊Ⅲ型频率曲线。
当Cs等于Cv的一定倍数时,为了应用方便,P-Ⅲ型频率曲线的模比系数K
P
也已制成表格,见附表3皮尔逊Ⅲ型频率曲线的模比系数K
P
值表。频率计算时,
由已知的C
S 和C
V
可以从附表2中查出与各种频率P相对应的K
P
值,然后即可算
出与各种频率对应的x
p =K
P
。如上例,由C
S
=2Cv,Cv=0.5,P=1%,查K
P
值
表,可得K
1%=2.51,所以X
1%
=K
1%
=2.51×1000mm=2510mm。有了P和x 的一些
对应值,即可绘制出皮尔逊Ⅲ型频率曲线。
附表3 皮尔逊Ⅲ型频率曲线的模比系数K P值表(摘录,Cs = 2Cv)
第四节统计参数估算
在概率分布函数中一般都有一些参数, 例如皮尔逊III型分布曲线中就包含有均值、变差系数Cv、偏态系数Cs三个统计参数。为了确定概率分布函数, 就得估计出这些参数。
一、矩法
矩法是通过矩和参数之间的关系,来估计频率曲线参数的一种方法。无偏估计公式如下:
二、三点法
三点法是在绘制的经验频率曲线上任取三点,其坐标为(x
1,p
1
)、(x
2
,
p 2)和(x
3
,p
3
),由式(4-4-12)可以建立3个方程,联解三个方程组成的方
程组,便可以求得三个参数。
从理论上讲,P
1、P
2
、P
3
可以任取,但在实际工作中一般取:P
1
=5%,P
2
=
50%,P
3=
95%。
图5-4-1 三点法在经验频率曲线上取点示意图
在解方程组的过程中,引入一个系数S,该系数称为偏度系数
显然,S是Cs的函数,其关系已制成表 - P = 5~50~95% 时S与Cs关系表,计算出s后,就可从表中查出相应的Cs值。
解方程组可得:
(4-5-7)
而(4-5-8)式中值可由值表中查出,由此得到皮尔逊Ⅲ型频率曲线的三个统计参数。
附表4 三点法用表P = 5~50~95% 时S与Cs关系表
三、抽样误差
用样本的统计参数来估计总体统计参数时存在一定的误差,这种误差是由于抽样引起的,称为抽样误差。
误差的均方差称为均方误。显然,均方误越大,抽样误差也越大。皮尔逊Ⅲ型分布用矩法估算参数时,可用、、、分别代表、、Cv和Cs的均方误,其计算公式为:
(5-28)
(5-29)
(5-30)
(5-31)
由上述公式可见,各式的分母中都含有n,n为样本容量。可见,样本容量越大,其抽样误差就越小。
第五节现行水文频率计算方法—适线法
一、经验频率
由实测资料计算的频率称为经验频率,经验频率计算采用公式:
1+=
n m P
式中:m 为水文变量由大到小排列并按自然数顺序编出的序号
n 为样本容量。
二、重现期
由于"频率"较为抽象,水文上常用"重现期"来代替"频率"。所谓重现期是指某随机变量重复出现的平均周期,单位为年,用符号T 表示。重现期为T ,习惯上又称作T 年一遇。频率P 与重现期T 的关系如下:
1、暴雨、洪水问题,关心的是超概率事件,则:
(年) (5-32)
例如P=0.5%的设计洪水,用式5-32计算,其重现期为200年,可称此洪水为200年一遇的设计洪水。
例如某堤防按20年一遇防洪标准设计,其相应的设计频率P=1/T ×100%,即P=1/20×100%=5%。
2、干旱、枯水问题,关心的是不及概率事件,则 P
T -=
11
(年) (5-33) 例如P=80%的枯水流量,用式5-33计算,其重现期为5年,可称此为5年一遇的枯水流量。
3、有关说明
100年一遇暴雨或洪水,是指大于或等于这样的暴雨或洪水在长时期内平均
100年可能发生1次,而不能认为每隔100年必然遇上1次。
三、机率格纸
频率计算所用的格纸称为机率格纸,此种格纸横坐标的两端分格较稀而中间较密,纵坐标为均匀分格。之所以采用这样的机率格纸,是因为将频率曲线绘在普通方格纸上,实际意义较大的两端特别陡峭,应用起来极不方便,而绘在机率格纸上,两端的坡度变缓,使用起来就比较方便了。这种机率格纸的分格是按正态分布曲线能绘制成直线来划分的,所以,当Cs=0时,频率曲线在机率格纸上为一直线。
四、统计参数对频率曲线形状的影响
为了避免配线时调整参数的盲目性,必须了解皮尔逊Ⅲ型分布的统计参数对频率曲线形状的影响。
1、均值对频率曲线形状的影响
当皮尔逊Ⅲ型频率曲线的Cv和Cs不变时,均值增大,频率曲线会升高。如下图所示。
不同均值对频率曲线的影响图
2、变差系数cv对频率曲线形状的影响
当皮尔逊Ⅲ型频率曲线的均值和Cs不变时,Cv增大,频率曲线会变陡。如下图所示。
图5-12 Cs=1.0时,各变差系数Cv对频率曲线的影响
3、偏态系数Cs对频率曲线形状的影响
当皮尔逊Ⅲ型频率曲线的均值和Cv不变时,Cs增大,频率曲线会上部陡、下部缓、中间弯。如下图所示。
图5-13 偏态系数Cs对频率曲线的影响
五、适线法的步骤
1、点绘经验频率点据(把资料从大到小排列,按自然数顺序编号,按P=
计算经验频率,以变量值为纵坐标、以相应的经验频率值为横坐标,在机率格纸上点绘出点据);
2、用无偏估计公式计算均值、变差系数;
3、假定一个Cs(年径流问题Cs=2~3Cv,暴雨、洪水问题Cs=2.5~4 Cv);
4、选定线型,一般用皮尔逊Ⅲ型;
5、根据三个统计参数查Ф值表或K值表,计算出各频率对应的变量值,点绘出一条皮尔逊Ⅲ型曲线;
6、分析皮尔逊Ⅲ型曲线与经验点据的拟合情况,如果满意,则该曲线对应的三个统计参数就作为总体参数的估计值。如果不满意,则修改参数,再画一条皮尔逊Ⅲ型曲线拟合,直到满意为止。
适线法软件介绍:用EXCEL软件分析计算(见例题)
第六节相关分析
一、概述
1.相关分析及其目的
分析和建立随机变量之间相互关系的过程称为相关分析。相关分析可以用来延长和插补短系列资料。
2.相关的种类
按照随机变量的个数,相关的种类分为:简相关和复相关。两个变量之间的关系称为简相关,三个或三个以上变量之间的关系称为复相关。
本章主要讨论简相关的问题,两个变量之间的关系有三种情况:完全相关、零相关、统计相关。
①、完全相关(函数关系)
两变量x 与y 之间,如果每给定一个x 值,就有一个完全确定的y 值与之对应,则这两个变量之间的关系就是完全相关(或称函数关系)。完全相关的形式有直线关系和曲线关系两种,如图5-15所示。
图5-15 完全相关示意图
②、零相关(没有关系)
两变量之间毫无联系,或某一变量的变化不影响另一变量的变化,这种关系称为零相关或没有关系,如图5-16所示。
图5-16 零相关示意图
③、统计相关
若两个变量之间的关系界于完全相关和零相关之间,则称为统计相关。分为直线相关和曲线相关,如图5-17所示。
图5-17 相关关系示意图 (a)直线关系 (b)曲线关系二、直线相关分析
1.图解法
设x
i 和y
i
代表两系列的观测值,共有n 对,把对应值点绘于方格纸上。
如果点据有直线分布的趋势,则可通过点群中心及均值点目估绘出一条直线,该直线即为相关线。如图5-18。利用相关线可有x值求得对应的y值。也可写出该直线的方程,由给定的x值计算对应的y值。
图5-18 直线相关图
2.分析法
为避免图解法的主观任意性,可采用分析法来确定相关线的方程,即回归方程。设相关方程为为:
y = a + bx (5-34)
最小二乘法原则,求出使最小的
、
(5-37)
而是散布于相关线的两旁。
因此,相关线只反映两变量间的平均关系。按此线推求的y值存在着一定的误差,误差大小一般采用均方误来表示。
用S
y 表示y 倚x 相关线的均方误,y
i
为观测值,y 为相关线上的对应值,
n 为系列项数,则
(5-43)
可以证明:
由正态分布的性质可知,相关方程的误差不超过Sy的概率为0.683,不超过3Sy的概率为0.997(图5-19)。
同样,x 倚y 相关线的均方误S
x
为
(5-44)
图5-19 倚相关线的误差范围
4、相关系数的统计检验
相关的密切程度,通常以相关系数来检验。为此,需要对相关系数进行统计检验。
检验方法是:查相关系数检验表(见表),若计算的相关系数r大于表中的相关系数r
α,则在信度为α的水平下可排除零相关;否则,判断为零相关。rα可以根据样本项数n和信度α从相关系数检验表中查取。
不同信度水平下相关系数最低值r
α表
5.直线相关分析应注意的问题
①两个变量之间要存在密切的物理成因联系,不能盲目进行相关分析;
②同期观测资料不能太少,点据至少10个以上;
③相关系数应进行统计检验(水文学要求信度取0.01,而且时才能应用);
并进行误差评价。
④要计算S
y
三、曲线相关分析
有时变量间的关系为曲线相关的形式,如幂函数、指数函数等。曲线相关分析的方法一般是先将其通过数学变换化为直线关系,然后再进行直线相关分析。1.幂函数
幂函数的一般形式为
y = ax b
两边取对数: log y =log a + b log x
令 Y = log y, A = log a, X = log x
则有 Y = A + b X
对X和Y而言就是直线关系,可对其作直线相关分析。
2.指数函数
指数函数的一般形式为
y = A e bx
两边取对数 log y = log a +bx log e
令 Y = log y ,A = log a, B = blog e, X= x
则有 Y = A + B X
这样对X和Y同样也可作直线相关分析。
四、复相关分析
研究3个或3个以上变量的相关关系,称为复相关分析,又称多元回归分析。对于三变量的相关分析常用图解法或分析法进行。
1.图解法
设倚变量z 受自变量x 和y 的影响。可以在方格纸上根据实测资料绘出z 与x 的对应点据,并在点旁注明y 值,然后分析绘制出y 值的等值线。这样就得到三变量的相关图。
使用该相关图插补(延长)z 值时,首先确定一条y的等值线,如已知的y
不正好在某一根等值线上时,可内插一条y的等值线,在该等值线上可由x i值i
查得z i值。
图5-22 复相关示意图
2.分析法
三变量相关的分析法其原理与直线相关的分析法大致相同。设相关方程为 z=a+bx+cy (5-49)
=0 )。用最小二乘法原理可求得:式中a、b、c为待定系数(有时b
式中:、、——z、y、x系列的均值;
、、——z、y、x系列的均方差;
、、——z和x,x和y,y和z的相关系数。
对复相关系数也应作统计检验,其原理和方法与简相关的相关系数检验大致相同。
习题与思考题
1、什么是概率、频率?二者有什么关系?
2、什么是随机变量?分哪几种类型?
3、计算经验频率采用什么公式?其符号含义是什么?
4、什么是重现期?它与频率有何关系?
5、什么是分布函数、密度函数?各有什么性质?积分关系式如何表达?
6、正态分布有什么性质?如何用来进行误差评价?
7、适线法有哪些具体步骤?
8、水文学常用的统计参数有哪几个,各表示什么统计特征?统计参数对频率曲线形状有何影响?
9、Y倚X的相关方程及符号含义如何?如何计算均方误S
Y
?
10、直线相关分析应注意哪些问题?
11、某站年最大洪峰流量Q
m 及年最大3日洪量W
3
的对应实测资料共17组,
见表5-5所列。求出W
3倚Q
m
的回归线方程,并用此方程求1954年缺测最大3
日洪量(已知1954年的最大洪峰流量由洪水调查得Q
=4500 m3/s)
m
某站最大洪峰流量与最大3日洪量表