基于林业大数据的生物信息云平台构建研究
罗鑫 李明明
摘要:为解决当前林业生物信息学领域面临的储存成本高、数据量大、分析技术门槛高等问题,尝试提出了一种基于林业大数据的生物信息云平台构建方案,首先对研究现状进行初步概括,然后给出了林业生物信息云平台的基本架构,最后系统分析了林业生物信息云平台的设计要点,以供业内人士参考与借鉴。
关键词:生物信息;云平台;林业大数据
中图分类号:tp311
文献标识码:a?文章编号:1674-9944(2020)14-0206-02
1?引言
国内有关研究人员基于对当前生物信息学领域云计算服务的分析与研究,从服务特点着手对其进行分类,生成包括数据服务软件服务、平台服务、以及基础设施服务这4个方面的类别[1]。生物信息云从上述4个方面着手,面向用户提供海量数据获取、存储以及分析功能支持。同時,还有研究人员围绕生物信息学领域对云计算技术的应用问题展开了探索与研究,认为当前生物信息云平台建设过程当中首要解决的问题即如何适应生物信息云平台发展需求,构建基于数据以及软件的云储存方案,并与数据压缩、p2p等相关技术相融合,满足海量大数据传输需求,形成与云平台相适宜的轻量型编程环境,提高云平台的开放性特征。
2?林业生物信息云平台架构
云计算作为一种全新的计算模式,可以提供便捷、按需以及可用性的网络访问服务,引导用户进入可配置的计算资源共享环境中,根据用户实际需求提供包括网络、储存、服务器、应用软件以及软件服务等在内的一系列资源支持[2,3]。尤其在当前技术条件支持下,生物信息领域高通量测序技术进一步发展,带动生物信息学进入组学时代,随着组学测序技术的深入应用,生物信息海量数据生成,亟待通过对云计算技术的应用来解决其储存以及分析方面面临的问题。在此过程中需要特别注意的一点是,在当前生物信息领域基因组测序技术迅猛发展的背景下,生物产业面向计算机计算以及存储功能的需求呈现出指数级的增长趋势,尤其对于林业数据而言,海量林业数据的生成迫切需要构建一套基于大数据的生物信息云平台系统,来适应其对储存能力以及计算能力的增长速度。在这一背景下,基于林业大数据的生物信息云平台应运而生,其典型架构如图1所示。
3?林业生物信息云平台设计
3.1?信息数据收集清洗
林业生物信息源数据以国际数据库公开数据信息为依据,由于数据库更新升级间隔时间较短,因此需要实现面向林业生物信息云平台的源数据自动获取功能。此过程中尝试搭载网页解析技术,自动调节程序获取与“林业”关键词相关的序列数据、基因功能蛋白数据以及结构数据[4,5]。与传统应用环境所不同的是,在林业大数据计算环境下,生物信息云平台源数据自动获取后还需要对其进行转换以及清洗处理,以生成可以面向大数据计算环境所服务的业务数据格式。
3.2?大数据服务构建
考虑到林业领域研究中常涉及到的问题,可以对林业生物信息数据进行分类,第一类为基因组,第二类为转录组,第三类为基因功能组,第四类为蛋白结构组,第五类为零散数据组[6]。在林业大数据平台环境支持下,大数据存储技术需要考虑全类型数据储存以及计算多样化的实际需求,选用中低端储存设备,在分布式文件系统基础之上构建各类数据库作为支持,以满足大数据存储效率高以及成本低的要求。在技术实现的过程当中,选用基于hadoop大数据集成平台cloudera技术实现,数据库系统选用oracle系统。
3.3?硬件资源服务构建
用户通过租用云计算平台下所配置相关虚拟主机的方式,满足对计算、存储等相关硬件设备的控制需求,构建后续实际问题分析所需的计算环境[7]。对于生物信息云平台而言,可以将海量的生物信息学工具以虚拟镜像的格式打包并面向用户所租用云计算虚拟主机所服务,支持数据分析功能的实现。以clovr为例,其面向用户提供租用虚拟主机包含有预配置以及自动的生物信息学流程,同时支持在云计算平台以及本地计算机上的运行,虚拟机运行建立在biolinu以及ubuntu系统基础之上,并通过安装hadoop以及grid engine的方式满足作业调度功能的实现。
3.4?分析环境服务构建
在基于林业大数据的生物信息云平台中,面向生物信息的分析环境由两个部分组成,第一是生物信息学软件支持库,第二是生物信息开发语言环境[8]。目前,在生物信息云平台系统构建中,常涉及到的系统开发语言模式包括java、c++以及python等,上述系统开发语言模式均有与之相配套的生物信息学开发库,如c++开发语言模式与bioperl开发库所对应,java开发语言模式与biojava开发库所对应。需要特别注意的一点是,为了方便后续对海量林业数据进行统计分析,可以尝试在云平台上安装具有r语言结构模式的生物信息学数据库。基于cloudman的数据处理格式将软件工具以镜像方式打包,并支持直接在aws平台上的应用。
3.5?分析软件服务构建
目前技术条件支持下,绝大部分基于生物信息学分析软件都是通过自主开发的方式实现,所涉及到的生物信息学工具,如blast、ucsc等,可以搭载浏览器实现登陆,并对相关服务进行应用,即分析软件服务[9]。这些服务多由软件工具的开发方所提供,在实际应用中表现出了较差的可伸缩性,需要通过并行计算以及分布式计算的方式对其进行完善,以优化软件服务效果。
4?数据应用
用户通过所构建基于林业大数据生物信息云平台的方式,不但能够获取与该区域林业相关数据资源,还能够参考业务需求,利用生物信息云平台所提供决策分析工具,获取专题服务信息[10]。以防灾减灾专题数据库为例,图2给出了有害生物专题在数据平台决策分析中的应用结果。基于图2,用户可以直接获取相应区域范围内林业有害生物的类型、数量以及空间分布特征等相关数据,为后续决策以及其他工作的开展提供参考。除此以外,基于生物信息云平台所提供的海量数据库,还可以搭载预测模型对未来林业生态整体发展趋势与走向进行可靠预测,如有关树种分布的预测,并结合当地气象数据、人口活动情况以及交通运输数据,对各个区域灾害发生的分布情况进行可靠预测,掌握空间分布特征,同样能够为后续决策以及相关工作的开展提供参考意见。
5?结语
生物信息云平台建设具有所涉及到的数据类型众多、生物物种海量、数据分析呈现出多样化的特点,导致工程量大且成本高,是一项长期且系统性的工程,必须引起业内人士的高度关注与重视。本文着眼于林业生物信息大数据,构建了专用林业生物信息云平台,并就信息数据收集清洗、大数据服务构建、硬件资源服务构建、分析环境服务构建以及分析软件服务构建这几个方面的内容进行分析与探讨,能够面向林业生物学研究提供生物信息学数据平台服务与支持,帮助林业研究人员突破计算机硬件平台以及软件分析存在的局限性,实现数据全面共享,并且方便对林学问题的深入研究,对提升林业研究作业效率意义重大。
参考文献:
[1]孙燕飞.基于云平台的双向聚类算法在生物信息领域中的应用[j].科技通报,2013,29(4):143~145.
[2]杨?方,陈晓冬,杨?蕊, 等.基于vsphere技术的农业科研云平台研究和构建[j].山西农业科学,2017,45(11):1863~1866.
[3]谢?江,王旻超,易荣贵, 等.cpse-bio:基于云计算的生物问题求解环境[j].上海大学学报(自然科学版),2013,19(1):21~25.
[4]查贵庭,罗国富.南京农业大学着力打造生物信息学计算与云服务共享平台[j].中国教育网络,2015(10):34~36.
[5]董?峰,周鹏旭.面向云计算平台的多层免疫入侵检测模型[j].计算机工程与应用,2016,52(21):101~104,174.
[6]田?燕,张新刚,梁晶晶, 等.基于身份认证和访问控制的云安全管理平台[j].测控技术,2013,32(2):97~99,103.
[7]王维秋,刘春丽,马凤毛,等.“互联网+”时代高校智慧党建云平台构建探究[j].锦州医科大学学报(社会科学版),2019,17(5):1~5.
[8]李春梅,谭靖,李莹.“浙”里的林业有“智慧”——浙江创新探索林业云平台业务整合共享[j].信息化建设,2019,7(7):53~54.
[9]赵友杰,曹?涌,熊?飞.基于林业大数据的生物信息云平台的构建研究[j].电脑知识与技术,2018,14(1):23~25.
[10]黎?曦,黃海虹,张新耐,等.基于造林绿化工程的林业信息平台构建[j].科技视界,2017,5(5):100,118.
基于林业大数据的生物信息云平台构建研究
本文2022-11-11 22:03:09发表“城建环卫”栏目。
本文链接:https://www.damishu.cn/article/431752.html