技术交流
扫描二维码
或添加“GeneGroup003”
获取更多更新资讯
商城订购
扫描二维码
或添加“基因商城(GeneMart)”
手机下单,快人一步
售后服务
扫描二维码
或添加“GeneGroup005”
获取更快速售后支持
用什么数据进行宏基因组组装?当然是PacBio HiFi reads
宏基因组学是探索性微生物学最强大的工具之一。它在多种环境中的应用允许极大地扩大我们对原核细胞真实多样性的了解。近期发表在Frontiers in Microbiology杂志上的“Enhanced Recovery of Microbial Genes and Genomes From a Marine Water Column Using Long-Read Metagenomics”的文章,比较了基于PacBio Sequel II平台的长读长(LR)测序与 Illumina Nextseq平台的短读长(SR)测序技术,在研究宏基因组学的区别。结果表明PacBio 的CCS模式,也就是我们现在所说的HiFi reads,其长读长,低错误率的优点,更为适用于宏基因组学研究。在短读长测序组装中,多样性更为丰富的微生物群体样本,回收率低、由潜在的嵌合体产生而产生的宏基因组组装不确定性,都非常适应于采用PacBio HiFi测序技术来进行解决,能够提供更完整的宏基因组学组装的基因组(Metagenome-Assembled Genomes,MAG)信息。LR测序具有解决SR组装问题的潜力,并且它还为SAG(Single Cell Amplified Genomes)提供了良好的互补性,因为它不受扩增步骤的影响,并且更简单、更实用。
PacBio平台产出及数据表现 表1显示了illumina短读长平台和 PacBio长读长平台生成的宏基因组数据集的比较。PacBio 单分子测序技术作为长读长测序的重要技术,其酶读长可达448.5kb。作者除展示了来自PacBio测序平台的原始数据外,还对比了代表不同准确度的不同环形测序读取次数所获得的CCS5(5次),CCS10(10次),CCS15(15次)测序数据的不同表现。为了评估测序的准确性,作者假设错误的核苷酸序列会导致预测蛋白质中终止密码子的增加,并且可以通过其平均蛋白质大小来进行评估。来自PacBio原始数据的平均蛋白质大小为90.4个氨基酸。然而当选择更高准确度的CCS15数据,平均蛋白质大小为达248.4个氨基酸,更接近于这些水域中两种主要微生物(Ca. Pelagibacter HTCC7211, 302.5 或 Prochlorococcus marinus MED4, 255)的预期值。因而作者得出结论,准确度可达99.95%的PacBio CCS15数据,也就是HiFi reads更有利于准确地绘制样本中的基因图像。 表1:短读长和长读长测序技术以及从读数中检索到的蛋白质编码基因的汇总统计数据。 用PacBio LR数据进行宏基因组组装 从MAG中检索完整基因组是一种无需分离培养,即可从基因组数据上研究未知微生物的有效方法。原则上,将高准确度的LR应用于复杂样本,可以通过简化阻碍短读长序列组装的重复跳跃来改善宏基因组组装。无论采用哪一种CCS数据(5次、10次 或 15次),不同组装方法所获得的基因组组装结果,最终组装的性能都优于IDBA SR(图 2A)。最大的Congtig是使用 metaSPAdes CCS5 实现的,长度为 2.6 Mb,比使用SRa (275 kb) 实现的Contig高一个数量级。而最佳组装大小的结果由使用metaSPAdes的CCS15 LR数据实现,并呈现很好的可靠性(图 2A、B)。为了验证 metaSPAdes CCS15 的组装(图2C),将Contig的大规模分类学从属关系与SRa的那些(图2C)进行了比较。两种方法都恢复了所有门,仅发现数值差异,证实没有重大偏差。海洋环境中一个非常突出的例子是Pelagibacterales。尽管它们在开放的上层海水中占主导地位,但宏基因组研究中检索到的MAG数量相对较少,目前公共存储库中只有34个MAG。另一个例子是Ca.Actinomarinales,一种世界性海洋放线菌,占原核生物群落的5%,只有7个可用的MAG。这种异常的原因尚不清楚,但最可能的解释指向这些微生物具有高度序列微多样性特征。在这里,LR宏基因组学的使用大大改善了分类学上附属于两种微生物的Contig的组装(图2D)。LRa实现了更好的组装大小,如在Pelagibacterales中,LRa的数据比SRa多约6倍,并且更长的Contig可能有助于恢复完整的MAG。 图1:(A)条形图和箱形图指示Illumina (SR) 和 PacBio CCS5、CCS10和CCS15 组件的总组件大小、最大Contig长度和Contig大小分布。分别采用 HiCanu(蓝色)、metaFly(粉色)e 和 metaSPAdes(紫色)进行不同CCS数据的组装。(B)代表每兆碱基组装的预测蛋白质数量和平均蛋白质大小。(C)在所得Illumina (SRa) 和 PacBio CCS15 (LRa) 组件的门级别进行分类学分类。(D)Ca. Pelagibacterales 和Ca. Actinomarinales分类的Contig的组装统计。 参考文献: Jose M. Haro-Moreno , Mario López-Pérez, et al. Enhanced Recovery of Microbial Genes and Genomes From a Marine Water Column Using Long-Read Metagenomics[J].Frontiers in Microbiology. 2021,12: 708782. PacBio 在线讲座预告 hifiasm-meta: Hifi reads的宏基因组组装 时间:2021年12月17日(周五) 10:00 - 11:00 a.m. (北京时间) 主讲者:冯笑雯 博士 Dana-Farber Cancer Institute 冯笑雯博士毕业于北京大学医学部基础医学(本科)和人体生理学与生物信息学(PhD),目前是Dana-Farber Cancer Institute的李恒教授课题组的博士后成员。 长按并识别左边二维码,添加企业微信联系人HiFi reads,了解PacBio的最新资讯,还可以与我们取得在线的联系。 基因有限公司作为PacBio公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。
欢迎关注我司“基因快讯”与“基因售后服务”官方微信
未经书面授权,所有页面内容、图片和设计不得以任何形式进行复制Copyright © 2025 genecompany,All Rights Reserved
武汉市东湖新技术开发区高新大道666号生物产业(九峰)创新基地B13栋3楼 电话:027-87166462