花生作为我国重要的经济作物,广泛种植于热带和亚热带地区,是提供重要的蛋白和油料的基础。作为豆科的重要分支之一,花生属一共包括30个二倍体品种,一个异源四倍体野生花生(A. monticola)和栽培花生(A. hypogaea)(2n = 4x = 40)。作为栽培花生农艺性状改良的重要野生资源供体,野生四倍体花生的基因组也一直是国内外学者的研究热点。成功破译四倍体野生花生的基因组有助于科学家和育种专家对A. hypogaea起源及驯化过程的理解。英国上市公司官网365殷冬梅教授团队与北京百迈客团队、中国科学院等多家单位联合攻关,历时五年,成功破译复杂的异源四倍体野生花生基因组密码,相关成果于2018年6月19日发表在国际著名期刊GigaScience上:“Genome of an allotetraploid wild peanut Arachis monticola: a de novo assemble”。该团队充分考虑野生花生中部分同源的异源四倍体基因组的复杂性,充分利用SMRT + Hi-C + IRYS + Illumina等测序平台技术优势,采用最先进的基因组组装技术成功破译了四倍体野生花生基因组,最终得到染色体水平的高质量野生花生参考基因组。组装基因组大小为2.62Gb ,为预计基因组大小的97%,contigs N50和scaffolds N50分别为106.66 Kb,124.92 Mb,其中91.83%的序列都能被准确地挂载到20条染色体上。野生花生基因组的发布对于理解花生属和豆科作物进化具有重要的科学价值,促进花生以及其他油料作物的功能基因组学发展和分子育种。
在这项研究中,研究人员以野生四倍体花生A. monticola为研究材料,进行测序得到36X SMRT subreads+76X HiC data+210X Bionano Irys data+50X Illumina reads的测序数据,整合多种组装工具的优势,最终获得了参考基因组水平的高质量组装结果,如下所示:
A.monticola得到的subgenome与祖先A基因组A.duranensis, 祖先B基因组A.ipaensis之间的比较如表2所示,野生花生A and B subgenomes与对应的基因组大小相近,基因组的完整性和连续性都有了显著提升,为后续的功能基因组研究打下了坚实的基础。
比较A.monticola得到的subgenome与祖先A基因组A.duranensis, 祖先B基因组A.ipaensis的Hi-C热图,整体热图一致性非常高。(左图是A.monticola的HiC热图,右图祖先A基因组A.duranensis, 祖先B基因组A.ipaensis的Hi-C热图)
该研究整合使用SMRT subreads+HiC+Optical data等多种测序手段并开发了一套全新的denovo组装策略,最终获得染色体级别的高质量的异源四倍体基因组,相比较于之前发表的基因组,contigs N50有了将近5倍的提升,并且包含了97%的野生花生的基因组序列。此项研究表明这种全新的组装策略对于异源四倍体基因组的组装是可行的,并且这也是野生花生基因组的首次公布,对于研究祖先二倍体花生与栽培四倍体花生的进化,起源等研究起到了”桥梁”的作用。该项目得到国家基金委、河南省产业技术体系、河南省科技厅等诸多项目的资助。
GigaScience由华大基因和生物医学中心(BioMed Central)于2012年7月共同创办。该期刊采用标准全文文献、数据库信息以及信息分析工具相结合的崭新模式,为科研工作者提供免费公开的有效数据以及生物学发现等资源。GigaScience突破了传统出版业的束缚,为数据全面公开与共享提供了一个优秀平台,实现了科研人员对数据资源最大可能的合理利用,并提高了数据密集型科研项目的再现性。2016年6月14日,汤森路透社发布引证报告(Journal Citation Reports ,简称JCR)。华大基因大数据期刊GigaScience的SCI影响因子为7.463,在综合性期刊类别(Subject Category of Multidisciplinary Sciences)中排名全球第六。