科研动态

博士生徐灏在《Environmental Modelling & Software》发文

2018-10-09

        地学系博士生徐灏作为第一作者,李莎作为第二作者,地学系白玉琪副教授,王斌教授和中国气象局国家气候中心吴统文研究员作为共同通讯作者在《Environmental Modelling & Software》在线发表了题为“A collaborative analysis framework for distributed gridded environmental data”的研究论文。
        该研究为分布式存储的地学数据提供了简单高效的协同分析方案,将数据分析工作由用户端转移到服务端,从而大大减少了科学用户对本地的存储计算资源的依赖。研究合作者还包括地学系博士生董文浩、黄文誉副教授、徐世明副教授、林岩銮教授和中国气象局的吴芳华、辛晓歌、张莉、王再志等专家。
        该论文以气候模式数据为例,以CMIP5数据分析为典型应用场景,完成了方法研究。CMIP5的全球数据总量大约1.5PB,分布式存储于全球大约30个数据中心。PCMDI等提供的模式数据管理和分析方案是:模式数据中心发布数据;ESGF提供中央索引和检索系统;研究用户最后从模式数据中心下载数据,在本地计算环境中完成分析。
        当前方案的不足非常明显:模式数据的全球下载量太大而且重复程度太高、研究人员必须具备很强的硬件资源。此外,常用的数据分析方法缺乏共享,不同研究人员通常需要重复编写类似的分析脚本以实现相同的分析功能。为了应对即将开始的CMIP6数据分析工作,和IPCC第六次评估报告编写工作,提出更高效、更灵活和扩展性更强的模式数据对比分析方法,迫在眉睫。
       本研究分析了现有的模式数据处理软件的不足,设计并实现了气候模式数据协同分析软件框架CAFE (Collaborative Analysis Framework for Environmental data)。CAFE系统在逻辑上是由一个中央服务器、若干个工作节点,和与工作节点相连接的若干个Web用户界面组成。CAFE工作节点部署在各个数据中心。多个CAFE节点之间具有协同机制,能够形成全局统一的逻辑视图。用户可通过任意一个Web用户界面,实现数据检索、数据选择、参数设置和分析任务的提交,进而实现分析进度查询和分析结果查看及下载等操作。CAFE的典型技术特征是用户无需下载原始数据即可得到最终的分析结果。

 
图1 CAFE系统的逻辑设计

       目前,CAFE软件原型正在清华大学地学系、中国气象局、国家无锡超算中心、华东师范大学、中科院大气所、河海大学等多个地球系统模式研制单位进行部署和调试,构建气候模式数据的协同式分析的实验性网络。
       在国际上,CAFE软件所提出的协同式分析方法,得到了世界气候研究计划(WCRP)耦合模拟工作组(WGCM)国际模式数据基础设施委员会(Infrastructure Panel)的重视。白玉琪副教授应邀介绍了CAFE的协同式技术特征,以及他长期在国际综合对地观测组织(GEO)中推动建立国际对地观测数据基础设施(GEOSS)的经验。正在开展的国际第六次耦合模式比较计划(CMIP6),预计将产生20-40PB的模式模拟和预估预测结果数据。CAFE有望大幅度地减少未来全球分析CMIP6数据所需要的海量数据传输和本地化存储管理分析的需求,显著地提升模式比较计划的科学研究效率。

      《Environmental Modelling & Software》是环境与计算机跨学科领域高水平杂志,根据Thomson Reuters的2017年的文献引用报告,其2017年的影响因子为4.177。在中国科学院JCR分区为计算机跨学科应用领域一区top期刊。

本论文的引文和原文链接信息如下:
Xu H, Li S, Bai Y, Dong W, Huang W, Xu S, Lin Y, Wang B, Wu F, Xin X, Zhang L. A collaborative analysis framework for distributed gridded environmental data. Environmental Modelling & Software. DOI: 10.1016/j.envsoft.2018.09.007
原文链接:https://doi.org/10.1016/j.envsoft.2018.09.007