编者按:聚焦创新源泉,把握科技脉动;紧跟时代步伐,打造发展引擎。科技彩云南与云南网深入一线采访,即日起联合推出“揭秘云南重点实验室”系列专题报道,推开科学研究的智慧之门,带领读者探寻科技创新的精彩。关注别忘点赞哦!
“很多问题和因素眼睛是看不见的,只有通过数据分析,才能找到内在的规律性。”云南省统计建模与数据分析重点实验室主任唐年胜说,统计就是对数据进行分析和处理。
作为一门古老的学科,统计学起源于研究社会经济问题,通过搜集、整理、分析、描述数据等手段,以达到推断所研究对象的本质,甚至预测研究对象未来的一门综合性科学,其应用范围几乎覆盖了社会科学和自然科学的各个领域。
经过两千多年的发展,统计学也进入到了快速发展时期,随着计算机技术和大数据时代的到来,统计科学及相关工作更是发生了革命性的变化。
大数据时代的到来,海量数据席卷而来,统计办法也要与时俱进。“实验室要适应新时代的需求,需要不断优化并研究新的统计理论和新算法,分析和处理复杂数据的新方法。”唐年胜说。
攻破“高维数据”的统计推断
随着现代科学技术尤其计算机、网络信息和生物医学工程等的发展,大量的数据出现在诸如:生物医学、经济、金融、医疗健康、社会科学等学科领域,并以前所未有的速度产生和积累。
当今社会已步入大数据时代。
“时代变了,传统的统计方法已经不再适用新时代,特别是大数据时代的数据分析和处理。”唐年胜说,时代要求我们要研究新的统计理论,分析和处理复杂数据的新方法。
大数据呈现出数据量庞大、数据产生速度快、数据类型多样化、有用信息稀疏等特点。唐年胜说,大数据的这些特点给传统的统计分析方法、统计计算和统计推断理论带来了巨大的挑战,但也给统计学的发展带来了极大的机遇。
“要将大数据变成大价值,必须对数据进行分析。”唐年胜告诉记者,实现大数据的大价值必须从大数据里挖掘隐藏在数据里的关键因素和规律,通过统计建模的方法实现。
大数据复杂性特征加大了统计建模的难度;大数据分析量巨大要求深入研究快捷、稳定的统计算法。“因此,不能采用传统的数据分析建模方法,需要采用有针对性、灵活的统计建模方法。”唐年胜说,针对生物医学、医疗健康等领域出现的高维和超高维大数据的特点:维数高,样本量大但通常小于变量的个数,具有复杂的相依结构等研发新的统计建模方法。
什么是高维和超高维数据?
高维数据是变量的个数远远大于样本量个数;超高维数据指变量的个数随样本量个数呈指数级增长。唐年胜解释说,高维、超高维数据都是大数据中的一种特殊数据,变量个数非常多、样本量极少,用原来的最小二乘估计方法对这类数据做统计推断基本不可能,无法得到有效的统计推断结果。
怎么破?
“很简单,高维数据虽然维数很高,但是样本个数很少,把变量的个数,尤其是我们感兴趣的、有重要影响的因子找出来,其他影响小的因素排除掉,降低变量的个数,就实现了高维数据的降维。”唐年胜解释说,把高维数据降为低维数据,从而可用传统的方法做统计推断了。
简单回答的背后并不简单。
“传统的经验似然方法在高维数据条件下会遇到一个最大的问题,参数估计的收敛速度非常慢,参数估计不稳定,对模型错误指定非常敏感。”唐年胜说,如何降维是非常重要和关键的,实验室研发新的办法——惩罚指数倾斜似然方法。“该方法具有很好的稳定性,即使在模型假定错误的情况下,仍然能得到很好的参数估计效果。”
唐年胜带领实验室首次把“倾斜似然方法”适用于高维数据分析中,同时加入“惩罚函数”,创新地提出“惩罚指数倾斜似然方法”,并在传统假设不成立的情况下,利用“惩罚”函数方法将可能不重要的变量个数尽可能地压缩至可接受的范围,通过降低重要变量个数实现降维。最近,唐年胜带领实验室与香港中文大学合作对超高维齐性分类数据提出了独立于模型假设的筛选重要变量的分类自适应方法。“该方法适用于响应选择(Response-selective)抽样数据分析,在1:1还原数据原本属性情况下,既得到准确的统计推断还可提高数据处理速度。”
唐年胜举例说,人体的某种疾病与人体基因有直接的关系,但在人体多达几万个基因中,具体哪一个基因对这种疾病有影响不得而知。“如果知道具体哪几个基因对这种疾病有影响,一旦成功找出就会对该疾病的治疗带来非常大的帮助。”
目前,唐年胜带领实验室研发的统计建模“惩罚指数倾斜似然方法”已成功运用于医院甲状腺结节的病例筛查,该方法探测到了一些与甲状腺结节相关联的因素,不需要过渡依赖医学仪器,探测准确率基本可达到90%左右。
“医生只需通过患者的临床观察,输入相应的年龄、性别、生活习惯、血液信息等因素,利用该方法综合建模,即可快速探测是否存在甲状腺结节的症状,既可减少医学仪器检查对人体的伤害也可降低检查成本。”唐年胜说,该案例属于高维方法的实际应用。
研发分析处理复杂数据的统计新方法
“统计建模就是把可能对响应变量有影响的因素作为协变量建立一个简单的回归模型。”唐年胜告诉记者,所有模型都是人为假设的,所以在各种不同的假设下,人们提出了许多不同的模型拟合这些复杂数据集。
但是存在一个自然的问题,这些模型假设是否合理?数据与假定的模型是否大致一致?数据集是否存在异常点、强影响点?当这些数据集中存在影响点,基于这些假设得到的统计推断是否可靠?模型或数据的扰动对统计推断的影响如何?特别是,在贝叶斯框架下,通常都需要指定一个参数的先验分布,先验分布的假设对贝叶斯统计推断的影响有多大?
为了回答这些问题,统计学中发展出了一个很重要的研究方向:影响分析,很多人开始纷纷研究找寻答案。
唐年胜所带领的实验室正是千万大军中的研究一员。
“影响分析是数据分析中一个非常重要的环节,因为当数据集中存在强影响点或异常点以及错误指定数据模型或数据模型发生微小扰动时,有可能导致不合理甚至错误的统计分析结论。”唐年胜说,因此,识别数据集中的强影响点或异常点以及评价模型微小扰动对统计推断的影响是统计学中一个重要的研究领域。
1986年,Cook首先提出并从频率学派的角度基于似然函数研究了线性模型的局部影响分析;1989年,McCulloch从贝叶斯角度研究了先验分布微小扰动的影响评价;2007年,Van der Linde基于影响度量的曲率研究了模型微小扰动的影响评价。
尽管诸多研究,但现有研究几乎仅考虑了先验分布扰动的影响或曲率度量。2011年,Zhu, Ibrahim and Tang从贝叶斯的角度对任意目标函数提出了刻画模型扰动大小的度量张量统计量的概念,推广和发展了Cook于1986年基于似然函数从频率学派提出的局部影响分析方法,提出了度量扰动影响大小的一、二阶诊断统计量。但是该方法还是不能直接用于一些复杂数据模型的贝叶斯局部影响分析,如:多元生存数据和纵向数据半参数联合模型、潜变量模型等。
“针对这些复杂数据模型的特点,我们提出了刻画这些模型的扰动的扰动模型,并发展了一些简便的计算方法。”唐年胜说,不仅考虑了随机效应方差的扰动而且还考虑了危险函数的轨迹函数的扰动。
唐年胜举例解释,为什么大家都找老中医看病?原因就是老中医看的病人多、经验丰富,收集的历史数据多,做结论相对准确。这就是贝叶斯方法应用的一个例子,借助历史数据估计先验分布,进而估计模型中的参数,再进行统计推断。
仅仅破解统计推断方法并不是实验室的最终目的。
“再好的理论和方法只是写在纸上不能变为实际可用的东西,都是空谈。”唐年胜说,统计要应用,要走出实验室,目前实验室已成功将统计模型应用服务于社会实践,如昆明市统计局全面建成小康进程的研究,云南省统计局自然资源资产负债表的研究,云南省食品药品监督管理局开展关于创建食品安全示范城市方面的调查问卷等实际应用案例。
而今,这个两千年的古老学科正随着大数据时代的到来进行着一场“变法”。
和科学家聊一聊
在一般人眼里,统计学可能很枯燥乏味。而在唐年胜眼里,统计学能带来成就感和幸福感,需要穷毕生之力去探索、发掘、钻研。
“我从小就严重‘偏科’,只喜欢数学,对数学情有独钟。”唐年胜说,数学一定会有答案、有结果,推测公式的过程是一件很开心的事情,成功解题的瞬间很有成就感。
正是对数学的“着魔”,唐年胜23年一直深耕统计、建模,不断探寻新的研究方法,不断攻破一个个关键理论,成功研发多个统计推断方法。
“统计研究最大的问题就是数据,有数据什么分析和推断都能做,没有数据就什么都做不了。”唐年胜说,数据的应用是仁者见仁智者见智,要正确合理有效地运用数据,做对社会经济有积极影响的应用。
下一步,唐年胜还将继续带领实验室结合云南地方经济社会发展需求,积极开展服务云南行动计划,“大数据分析与处理人才培养、旅游大数据分析和挖掘、数字经济指数研究、精准医疗大数据分析技术、旅游大数据信息发布以及科普等,努力实现科技惠民,提高科研成果转化率和产出率。”唐年胜讲到。
【实验室名片】
随着计算机和网络信息技术的发展,特别是大数据时代的到来,数据建模和数据分析具有不可或缺的重要作用。
云南省统计建模与数据分析重点实验室紧紧围绕数据分析与处理的基础理论研究、关键技术、统计应用等展开,主要研究方向包括:统计建模理论与方法、统计算法、大数据处理与分析技术、统计应用等。
云南省统计建模与数据分析重点实验室自2016年10月筹建以来,新增国家级课题14项,其中国家自然科学基金13项、国家社科基金1项;新增省部级课题3项;完成省统计局、昆明市统计局、中铁二院等横向课题7项;获云南省自然科学二等奖1项,国际泛华统计协会杰出服务奖1项等。