【精选干货】RNA-Seq通用分析内容与方案纵览

凡星 关注

收藏于 : 2019-06-02 08:17   被转藏 : 1   

摘要

自从RNA被发现在基因组和蛋白组之间作为关键的调控和中间媒介后,转录本的鉴定和基因表达定量,就成为了分子生物学中的研究热点,而利用高通量RNA测序,能够很好的帮助人们进行这两项研究。然而近年来越来越多的方法学和分析流程的公开发表与应用,往往让初学者感到迷茫与困惑,尤其是如何理解RNA-Seq研究的必要和关键步骤。


由于研究目的的千差万别,目前并没有一个分析流程,能够适用于所有的项目。本文回顾了RNA-Seq数据分析中的主要步骤,包括实验设计,数据指控,数据比对,基因和转录本定量,数据可视化,基因差异表达,可变剪接,功能分析,融合基因检测和eQTL检测等等。本文探讨了每一步分析中的难点与挑战,也展望了新技术可能带来的转录组研究的革新。


01

实验设计


科学合理得实验设计是通过RNA-Seq成功回答生物学问题的先决条件。首先,我们实验设计理我们需要考虑的是选择什么样的文库类型,测序深度,和重复的次数,其次选择合适的测序平台和测序方式,避免不必要的系统偏向性。


在细胞的total RNA中往往超过90%的rRNA都是核糖体RNA,而我们感兴趣的mRNA只占1~2%。在真核生物中我们可以选择用poly A选择性富集mRNA或者去除rRNA的方式:poly A富集要求比较高的RNA起始量,且只允许RNA存在少量的降解,这种方式获得reads通常落在已知外显子的比例比较高;但是有一些生物学样品(比如活检组织)很可能不能提取得到足量的或者质量较高的RNA,如果用poly A的方式富集可能会文库质量不佳,所以我们会推荐用去除rRNA的方式建库。对于测序长度的选择,一般而言相对便宜的单端短测序reads足够用来研究注释比较完整的物种的基因表达情况,而双短长测序,适合用于从头组装,转录本鉴定,或者注释不完备的物种研究。


对于测序的深度,主要依赖研究的目的,有些作者认为最少5M的reads就足够用于中等表达和高表达基因的定量,有一些则认为需要测到100M的reads才能对稀有基因和低表达的基因精确定量。随着测序深度的增加,可以鉴定到更多的基因,同时过高的测序量也可能导致背景噪声的增强。


在实验设计的时候生物学重复的设置是很有必要的,它能增强统计检验在实验处理组之间发现显著差异的基因的能力和可靠性。一般而言,每个组至少需要三个重复,重复的数量越多,验测显著差异表的基因的准确性和敏感度越高。同时,增加测序深度也可以提高检测低丰度基因的能力。


注:该表中的统计能力基于的是中度表达基因(70条比对上的reads)


02

数据分析内容




【慕序君乱入】

如您想深入学习转录组&R语言绘图技能

戳链接,更有料!


生物信息学研讨系列

转录组&R语言绘图技能培训班

主办单位:深圳市华大基因学院

举办地点:中国 深圳

培训时间:2016年12月19日——2016年12月23日

详情地址:请点击此处进入



03

数据比对与转录本鉴定


当参考转录组或者参考基因组存在的时候,一般会同时或者选择性比对到其中一个参考序列,对于人的样品而言,一般而言根据比对软件的不同,RNA-Seq数据比对到基因组的比对率到70~90%之间,而当reads比对到参考转录组的时候,因为有些reads来自之前尚未被注释的新转录组,从而比对率会相对偏低一些;另外由于同一个基因的外显子通过可变剪接会形成不同的转录本,从而这些来自不同转录本的reads因为共享同样的外显子,会有多处比对(multiple-mapping)的现象。通过数据比对,以及与已知转录本的比较,我们可以进行基因表达定量分析,和转录本鉴定,新转录本预测等分析。当物种没有参考基因组和转录组时,那么RNA-Seq分析的第一步应该时把短reads组装得到长的contigs,把contigs当成该物种的转录组,再把reads比对回去进行表达量的计算。



04

转录组组装与新转录本预测


利于短reads,如Illumina测序平台产生的数据进行组装,是一件十分具有挑战性的工作,短的reads很难跨过多个外显子的连接位点,也难以覆盖到转录本的转录起始和终止位置,此外,组装的算法比较复杂,效果也不是特别理想,在很多项目中,一些比较长或者结构复杂的转录本通过从头组装的方式,获得的是几十甚至上百个转录本碎片。而目前起步的第三代测序,如Pacific Biosciences的SMRT测序方式,能够测序得到足够长的reads,从5’到3’端覆盖整条完整的转录本,拥有比较好的发展前景。


05

基因定量与差异表达分析


基因表达定量是RNA-Seq中最常规应用范围最广的分析。当reads比对到参考基因组后,我们可以用cufflinks,HTSeq-count等软件,根据基因在染色体上的位置进行表达量的计算;当reads比对到参考转录组时,我们可以用RSEM,eXpress等工具进行分析。对于表达量计算的关键在于统计有多少条reads是属于特定某一条基因或者转录本的,之后考虑到基因或者转录本的长度,测序的深度等等影响因素,会采用RPKM/FPKM,或者TPM的方式进行均一化。在比较同一个基因在不同样本里的表达量变化时,均一化基因长度的步骤不是必须的,但是当我们想要比较多个基因在同一个样品中的表达量高低时,就需要考虑到长度的影响,因为长的基因经过打断后,会产生更多的reads。


当进行差异表达分析时,我们需要比较在不同样品中基因的表达情况,由于任何一项技术都会存在或引入一些偏向性,差异表达分析软件的作用,就是建立模型减少偏向性的影响,过滤背景噪声,增加真实差异基因的检出率(TPR),降低假阳性(FPR)。比如edgeR,DESeq2以及baySeq,EBSeq等常用软件,假设基因的表达量分布是符合负二项分布的,用每个基因检测到的reads数,以及覆盖度,插入片段长度,CG含量,转录本长度等等可能存在偏向性的因素,输入到统计模型中进行计算,最终得到较为可靠的差异表达基因。对于样品数及重复数非常少的研究,利用负二项分布来做统计检验,可能背景噪声比较高,我们会选用一些更加简单的模型,比如基于泊松分布的DEGseq,或者基于经验分布(empirical distribution)的NOISeq。当采用的差异表达软件不同时,得到的结果,也会存在一定的差异,我们可以根据数据特征选取适合的软件,或者综合考量比较各个软件的结果。



06

可变剪接


对于可变剪接分析,目前主流的方式主要分成两大类:一类是基于转录本亚型(isoform)的表达定量,以及基因内不同亚型组成的比例变化来做的,比如BASIS,CuffDiff2等软件;另一种是根据比较reads在外显子和junction区域的分析变化,来检测单个可变剪接事件,比如DEXseq,DSGSeq,rMATS,DiffSplice等。


因为二代测序读长有限,转录本亚型的定量仍存在较高的难度,目前而言定量的准确性受读长的影响,准确性不是很高;而对于单个可变剪接事件的鉴定,基于外显子或者junction的方法精度要高很多,所以如果研究对象是特定某个外显子的选择性剪接,或者某个功能蛋白的结构域,可以选择基于外显子或者juntion的方法。


07

数据可视化


RNA-Seq数据reads层面,或者覆盖度层面的数据可视化,可以用ReadXplorer,UCSC browser,IGV等二代测序通用软件来做,也可以用专门针对多个RNA-Seq数据可是化开发等RNAseqViewer来做,RNAseqViewer在基因结构展示上,有一定优势,但速度比IGV慢。


此外,DESeq2,DEXseq等基因差异表达软件,也会提供数据可是化的功能,还有基于CuffDiff2结果的CummeRbund,以及Sashimi plots等软件,均可以实现差异基因或者差异剪接外显子的可视化。


08

基因融合检测


因为融合基因通常涉及到染色体重排,因此,在比对的时候就增加了额外的挑战:比对软件需要增加更大的搜索空间,比对的位置可能不是线性的,甚至可能不在同一个染色体上。当我们找到潜在的嵌合序列后,需要经过复杂的过滤步骤来降低假阳性,尤其需要注意排除相似度非常高的同源基因的影响,它们可能存在域染色体上的多个位置,从而不能唯一比对到基因组上;另外表达量非常高的序列,也不太可能是融合基因,毕竟融合基因是比较罕见的。测序长度越长,比对的准确性越高,插入片段越大,也越有利于大的结构变异检测,所以我们推荐用较大插入片段的双端测序数据来做融合基因的分析。


09

RNA-Seq功能注释分析


一般而言,RNA-Seq的功能注释分析分为两类:一类是比较差异表达基因和所有的基因的功能分类,推测是否某些功能的基因出现差异表达的比例更高;另一类是研究筛选的差异表达基因是否富集到某一些功能。


完整有效的数据库是进行功能分析的前提条件,大部分的模式生物的注释信息可以在Gene Ontology,Bioconductor,DAVID等数据库找到,对于通过从头组装得到转录本序列的物种,可以通过序列相似性比对到SwissProt或者Pfam,InterPro等数据库,注释到其同源蛋白。Blast2GO可以用来做大规模的注释,通常RNA-Seq得到的转录本序列50~80%可以得到注释。


因为长链非编码RNA(lncRNA)相对编码的RNA更加不保守,所以数据要困难一些,Rfam中收录了一些非编码RNA家族,可以用来做分类,但lncRNA的功能注释目前并没有一个公认的标准做法。


10

展望


RNA-Seq已经成为了研究转录组的常用方法,其软件与技术的更新升级发展迅速,但值得注意的是,不同软件之间的一致性,受到参数和方法的影响,仍不是特别高,尤其是低丰度的基因定量是非常不稳定的。


目前RNA-Seq的最热门的两个方向为:从非常少的起始量从获得转录组的信息,以及通过更长的read得到更好的转录本注释。单细胞RNA-Seq的发展十分迅猛,近几年有不少高分文章产出,Smart-seq和Smart-seq2等技术通过适当的扩增,让研究单个细胞中微量的mRNA变得可能,从而实现组织中新细胞种类的鉴定,分类,以及研究单个细胞内的分子生物和生物化学过程。一般而言,做单细胞需要一定的数量才能做到亚群的精确分类,细胞数量太少,获得的信息比较有限。长reads测序平台,比如Pacific-Biosciences SMRT和Oxford Nanopore,可以有效解决短reads RNA-Seq难以解决的复杂转录本的组装,以及高度相似转录本亚型的鉴定等问题,通过直接通读整条转录本序列,而避免了组装的过程,能够获得更加完整准确的转录本结构。当然长reads测序目前仍存在一些局限性,比如测序错误相对较高,通量较低,从而不适合用于做表达定量。但这些可以通过与二代短reads测序相结合的办法得到弥补。


参考文献:

Conesa A, Madrigal P, Tarazona S, et al. A Survey of Best Practices for RNA-seq Data Analysis[J]. 2016.

Robles J A, Qureshi S E, Stephen S J, et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing[J]. BMC genomics, 2012, 13(1): 484.

 阅读文章全部内容  
点击查看
文章点评
相关文章
凡星 关注

文章收藏:6620

TA的最新收藏