[转帖]极值统计学
四、极值统计学
统计学者中有研究总体中心分布(middle man)与边缘分布(tail man)这两类研究者。通常,统计学者主要研究母总体分布的中心部分。但极值统计学研究其分布两侧的山脚处(tail),只研究数据分布较少的上位与下位,探讨边缘分布向某点收敛的速度(heavy tail)。所涉及到的典型问题主要有:例如要建设较强固的防坡堤,为此从可利用的过去百年间的潮位观测数据,推测今后1万年间的最高潮位。还有要建造6米高的防坡堤时,需推测发生超过其高度的大潮的概率,根据其结果决定防坡堤的高度等。此类问题就是使用被给定数据的一部分,预测全体或某范围的数据的最大值。在工程学方面还可举出如下的例子。在水文学中预测今后100年最大的降水量;在腐蚀工程学中机器整体有可能发生的最大腐蚀程度;建筑工程学中的今后50年中的最大的风速,最大的地震强度。在保险学方面有预测发生支付最大的保险金额;环境问题中的污染物质的集中程度;从证券,汇率,利息的时间序列的变化进行分析平均收益及风险的金融工程等等。在欧美日有许多出色的学者在从事这方面的研究。这些问题用统计学的语言表述即为:从未知母总体中抽取部分数据推测其母总体分布非常接近1的概率分位点(quantile)。而要推定这个概率分位点必须进行数据的外插计算,这将是较困难的。为了解决这个问题,在极值统计学中设定了未知母总体分布属于某极值分布的吸引区域。
在20世纪30年代由费舍与逛皮特(Tippett,1928年)曾对独立同分布概率变量的最大值(极值统计量)的渐近分布(极值分布)进行过理论研究,发现了在极值分布中有逆威布尔分布(Weibull distribution,逆正态函数分布,常用于拟合机器及系统的寿命分布),康拜尔分布(Gumbel distribution,双重指数分布,遵从于同一分布的n个独立连续概率变量中最大值x的极限公布),及弗来舍分布(Frecher distribution,连续变量在某点收敛的分布)这三种等形式,以及观察到了属于正态分布的极值统计量向极值分布的收敛相当缓慢。其后由von Mises(1936)给出了分布函数属于极值分布吸引区域的充分条件。由此得知统计学教科书中常出现的连续型分布几乎都属于极值分布的吸引区域。比如均匀分布,贝塔分布属于逆威布尔分布的吸引区域;正态分布,威布尔分布,咖码分布,对数正态分布等属于康拜尔分布的吸引区域;而t分布,帕热图分布(Vilfredo Pareto,法国经济学家,提出极限收入分布)等则属于弗来舍分布吸引区域。
50年代极值理论的研究有了很大的进展。通常是选取一年中某时期或某领域的最大值进行研究,将取得的极值数据按照上述三种极值分布模式拟合,推测其参数。但极值数据适合于何种形式的极值分布事先很难确定,因此在1950年以英国的统计学者为主展开了以一种形式表现三种类型极值分布的一般极值分布的数据解析研究。60年代开始了2变量的极值分布研究以及对具有从属性概率过程的极值统计量的渐进分布研究。
但是,从大量数据中仅选用极值会舍弃掉其他数据所具有的有价值的信息。因此,在水文学中出现了不是使用极值而是选取某界限以上的数据分析的方法。此方法称为POT(peaks over threshold)手法。根据指数分布可近似知道某界限值以上的数据分布。对此加以理论证明的是由巴克曼与哈曼(Balkeman=Haan,1974),还有皮堪德(Pickands,1975)所发现的一般帕热图分布。即分布函数之所以属于一般极值分布(逆威布尔分布,康拜尔分布,弗来舍分布)的吸引区域,就在于分布两侧的山脚部分的数值可用一般帕热图分布(贝塔分布,指数分布,帕热图分布)近似取得。以后,根据一般帕热图分布所进行的数据解析就成为极值理论的主流。在70年代末期至80年代中期,一般多变量极值分布的结构也得以明确。另外,由Galambos(1978,1987)与Leadbetter等(1983)的著作对极值理论的概率论方面作了介绍,理论方面的研究引人注目。
但遗憾的是,由于大多数统计学者的注意力集中在对研究总体中央分布的研究,以及少数统计学者往往侧重在对极值统计学的理论研究,所以极值理论在应用方面的研究还是很不够的。目前以欧美的学者为主组成各个研究小组,正在运用极值理论对水文学,环境保护,自然灾害,异常气象,可靠性工程,保险数学,金融工程等有特色的应用领域展开研究。