首页 > 超算应用
平台概述

生物医疗健康

21世纪是生物科学的世纪,本平台旨在利用广州超算中心强大的计算能力和完善的技术支持帮助用户分析和处理生命科学中的海量数据,加快我国生命科学的研究进展。本平台支持横跨分子生物学、合成生物学、细胞生物学、系统生物学、生物信息学、生物医学、基因组学等多个生命科学相关学科的研究,可帮助用户从原子、分子、细胞、组织、器官、个体、群体和生态系统等多个尺度系统地解决生命科学中的各种问题,研究不同空间尺度和时间尺度上生命活动与环境的相互关系,从而揭示生命现象的规律和本质。本平台通过软硬件相结合,打造了一个集生物信息分析,药物设计和筛选,医学大数据分析和数据挖掘一体化的一站式服务平台,为公众卫生健康、个性化医疗和相关学术研究提供服务和技术支持。

目前本平台上已经部署了专门用于生物信息分析的Galaxy子平台,该平台是由美国宾夕法尼亚州立大学(Penn State University)和约翰霍普金斯大学(Jonns Hopkins University)联合开发的基于Web的开源生物信息分析平台,目前在整个北美乃至全世界都有广泛的应用。

Galaxy是一个开放性的平台,功能强大并支持二次开发,其集成了大量的生物信息分析工具,为用户提供了一个简单易用的生物信息分析界面。

通过Galaxy提供的多种数据上传方式,用户可方便快速地上传数据,并通过浏览器选择所需的分析工具,设置分析参数之后即可提交数据分析请求。利用Galaxy中已安装的分析工具,用户还可创建和调用可重复使用的数据分析流程,并对这些流程进行修改和导入导出。Galaxy还具有历史记录功能,用户可查看自己所上传的所有数据以及执行过的分析工具和分析流程,并可直接从历史记录中创建数据分析流程。Galaxy支持数据的可视化,内置多种图表功能,可绘制直方图,饼图,折线图等。对于已上传的数据,可视化结果和工作流,用户都可以设置成共享状态分享给其他用户使用。除此之外Galaxy还支持自定义工具的添加,可按照需求扩展分析工具集。

另外,本平台上已部署TH-bio生物信息分析子平台,该平台整合了常用数据库、生物信息软件和分析流程,提供常见生物信息分析的一站式解决方案。目前支持的分析包括基因变异分析(全基因组、全外显子、癌症对照)、转录组分析(RNA-Seq、small RNA-Seq、single-cell RNA-seq)、ChIP-Seq、结构变异分析等。基于命令行方式,与普通计算环境无缝集成,有效支持精准医学等大批量样本分析。弹性调用“天河二号”计算资源,成百上千规模批量分析可轻松完成。

Galaxy平台相关参考文献:

Giardine B, Riemer C, Hardison R C, et al. Galaxy: a platform for interactive large-scale genome analysis[J]. Genome research, 2005, 15(10): 1451-1455.

Hillman‐Jackson J, Clements D, Blankenberg D, et al. Using galaxy to perform large‐scale interactive data analyses[J]. Current protocols in bioinformatics, 2012: 10.5. 1-10.5. 47.

Johnson J, Gottschalk B, Onsongo G, et al. The Galaxy Framework as a Unifying Bioinformatics Solution for ‘omics’ Core Facilities[J]. Journal of biomolecular techniques: JBT, 2014, 25(Suppl): S5.

Bizzego A, Mina M, Zarbo C, et al. Physiolyze: a Galaxy-based web service for Heart Rate Variability analysis with online processing[C]//Cardiovascular Oscillations (ESGCO), 2014 8th Conference of the European Study Group on. IEEE, 2014: 97-98.

 

技术特点

在本平台上可进行生物大分子的结构模拟与功能预测、药物设计和筛选、蛋白质结构预测及相互作用网络分析、蛋白质序列分析、基因调控网络功能分析、基因序列分析和比对、SNP变异检测、疾病与基因关联分析、外显子与转录组的研究、医疗健康大数据的分析和信息挖掘等多种分析与研究。在本平台上的分析与研究将涉及多种方法学的使用,如分子动力学、第一性原理、字符串处理、图论、贝叶斯模型、高斯模型、马尔可夫预测模型、数学统计、数值模拟和数据挖掘等。为提高分析和研究效率,有效利用超算中心计算资源,本平台所安装的部分软件拥有并行计算能力,可利用多CPU核、多计算节点和MIC加速卡进行计算,缩短分析研究时间。

 

典型案例
平台软件

目前本平台已部署和适配了一批分子生物学、生物信息学和生物医学相关的分析研究软件,其中包括NAMD、BLAST、Tinker、Gromacs、Modeller等8款开源软件,各软件详情可见列表。后续本平台将继续部署和适配更多生物相关分析研究软件,丰富软件种类。

分类 软件名称 版本 免费开源/商业 软件功能特点
生物医学 Chaste 3.3 免费开源 组织
生物医学 OpenCMISS 0.3 免费开源 组织、器官
生物化学 COPASI 4.15 免费开源 生物化学
细胞生物学 CellSys 5.0 免费开源 细胞
生物信息学 shapeit v2.r790 免费开源 序列比对
分子生物学 cp2k 2.6.0 免费开源 分子结构
生物信息学 impute 2.3.2 免费开源 序列比对
分子生物学 Gromacs 4.5.3, 4.6.3, 5.0.1, 5.0.4, 5.0.4-MIC 免费开源 模拟粒子体系的牛顿运动方程
分子生物学 Lammps 14-Feb14, 1Aug13, 25Sep14, 9Oct14, 9Oct14-MIC 免费开源 分子动力学和自由能模拟
分子生物学 Tinker 7.1.2 免费开源 生物分子动力学计算
分子生物学 Modeller 9.14 免费开源 蛋白质结构预测
生物信息学 BWA 0.5.10-MIC, 0.7.10 免费开源 序列比对
分子生物学 Nwchem 6.5.0 免费开源 分子动力学和自由能模拟
分子生物学 NAMD 2.9, 2.10-CVS, 2.10-MIC 免费开源 生物分子动力学模拟
生物信息学 BLAST 2.2.30 免费开源 相似性序列比较和分析
生物信息学 Blat 36 免费开源 序列比对
生物信息学 Bowtie 2.2.6 免费开源 序列比对
生物信息学 BWA 0.7.12 免费开源 序列比对
生物信息学 GMAP 20160404 免费开源 序列比对
生物信息学 STAR 2.5.1 免费开源 序列比对
生物信息学 hisat2 2.0.5 免费开源 序列比对
生物信息学 Tophat 2.0.14 免费开源 序列比对
生物信息学 Velvet 1.2.10 免费开源 序列组装
生物信息学 CNVnator 0.3.2 免费开源 CNV检测和分析
生物信息学 CNVnator 0.3.2 免费开源 CNV检测和分析
生物信息学 Cufflinks 2.21.1 免费开源 转录组分析
生物信息学 GATK 3.7 免费开源 变异检测和分析
生物信息学 SnpEff 4.3 免费开源 变异注释
生物信息学 VarScan 2.3.7 免费开源 变异检测和分析
生物信息学 XHMM 20150320 免费开源 变异检测
生物信息学 BEAGLE 2.1 免费开源 基因型检测和填补
生物信息学 HMMER 3.1b2 免费开源 相似序列检索
生物信息学 IMPUTE2 2.3.2 免费开源 基因型填补
生物信息学 PLINK 1.9 免费开源 全基因组关联分析
生物信息学 Samtools 1.3.1 免费开源 NGS数据处理
生物信息学 Picard 1.129 免费开源 NGS数据处理
生物信息学 FastQC 0.11.5 免费开源 NGS数据质量控制
生物信息学 Sambamba 0.6.6 免费开源 NGS数据处理
生物信息学 Cutadapt 1.12 免费开源 NGS数据筛选
数据处理和统计分析 Rstudio 1.0 免费开源 基于网页的R语言集成开发环境