人全外显子捕获测序

人全基因组甲基化测序
2017年3月7日
靶向捕获测序
2017年3月8日

人全外显子捕获测序

人全外显子组测序是指利用序列捕获或者靶向技术将全基因组外显子区域DNA富集后再进行高通量测序的方法。相比于全基因组测序,外显子组测序的检测目标更明确,测序深度更高,研究更经济高效。

人全外显子组测序主要用于识别和研究与疾病、种群进化相关的编码区及UTR区域内的结构变异。结合大量的公共数据库提供的外显子数据,有利于更好地解释所得变异结构之间的关联和致病机理。

技术优势

  • 高深度测序

测序深度可以到达100x以上,可发现常见变异、低频变异及罕见变异

  • 高精确度

直接对蛋白编码序列进行测序,能找出影响蛋白结构的变异,数据准确性高且高效

  • 高性价比

外显子区段大小约为全基因组的1%,有效降低检测费用

应用方向

  • 流程

 

  • 生信分析

 

  • 产品参数
产品类型 平台 推荐数据量 周期
人全外显子捕获测序 HiSeq X (PE 2*150) ≥90G clean data

测序深度 30×

30天


样本种类 单个样本量
DNA >1 ug

浓度:>25 ng/uL

纯度:OD(260/280)=1.8~2.0

全血 >1 mL
组织样-手术取样 >1 g
组织样-穿刺取样 1针以上
石蜡切片(FFPE)-肿瘤切片 10张以上
石蜡切片(FFPE)-肿瘤穿刺 20张以上
细胞样本 2×10^6个
口腔试子 1~2个棒子

饭后0.5,来回20下

  • 样本碱基质量图

图1 样本Q30折线图

           (以样本为横坐标,样本的Q值为纵坐标,展示每个样本的Q20和Q30的大小)

  • 原始测序产量

图2 原始测序产量

(以样本为横坐标,样本的原始测序产量为纵坐标,展示每个样本的数据产量)

  • 平均测序深度

图3 原始测序产量

(以样本为横坐标,样本的平均测序深度为纵坐标,展示每个样本的平均测序深度)

 

  • 全样本SNP转换和颠换占比

图4 全样本SNP转换和颠换占比

(以样本为横坐标,样本的SNP转换和颠换占比为纵坐标,展示每个样本的SNP转换和颠换占比)

 

  • 全样本SNP突变图谱

图5 全样本SNP突变图谱

(以样本为横坐标,6种不同的突变类型在样本中的突变数量为纵坐标,展示样本间突变频谱的差异)

  • 样本注释结果(以样本GCS165939的SNP结果为例)

 

  • 非同义突变频率Top30基因(以样本GCS165939的SNP结果为例)

图6 GCS165939(SNP)中非同义突变频率最大的基因(Top30)

(以包含非同义突变数量最大的30个基因为横坐标,非同义突变数量为纵坐标,按照非同义突变数量从大到小进行排序)

  • 高频基因突变事件Top30(以样本GCS165939的SNP结果为例)

图7 GCS165939(SNP)中国人群高频基因突变事件(Top30)

 

案例一:

题目:胶质母细胞瘤的体细胞基因组研究概括(The Somatic Genomic Landscape of Glioblastoma)

研究背景:胶质母细胞瘤(GBM)是TCGA机构第一个系统研究的肿瘤类型。首发的论文(Comprehensivegenomic characterization defines human glioblastoma genes and core pathways)展示了206例胶质母细胞瘤患者的基因组和转录组分析结果,包括了91例样本600个基因的突变序列。研究结果也提供了一个概念的证明论证,即针对统计学的队列进行系统的基因组分析能够定义核心的生物学通路。首发论文报道了3个核心的通路在生物学的改变,分别为P53,Rb,RTK/ Ras/ PI3K通路。3个通路的改变与不同的胶质母细胞瘤的分子和表观遗传亚型之前的关联显示不同的分子亚型富集的协调的组合,可以影响临床预后和个体治疗的敏感性。
以上研究表明,胶质母细胞瘤的产生是源于一个功能冗余的信号网络,这个网络能够适应分子靶向治疗的反应。因此,一个基于多维度高分辨率的包含全面的GBM分子特征谱的数据集,会成为未来研究了解其发病机制的关键资源,并且有助于开发有效的疗法治疗这种致命癌症。

研究方法:

研究结果:

1、利用全外显子组测序检测了GBM中显著的突变基因。

将291例样本癌组织进行了全外显子测序,得到了20448个SNVs和1153个Indels。利用MutSig和InVEx算法,找出71个肿瘤驱动基因。这71个基因中包含的757个突变位点用靶向捕获测序在259个样本中继续验证,验证率在80%以上。

2、GBM中的拷贝数变异检测

样本从206个增加到543个,进行了DNA拷贝数变异的检测,结合GISTC算法,得到了显著的扩增和缺失片段。结合之前的报道,最高频的扩增事件包括chr7 (EGFR/MET/CDK6), chr12 (CDK4 and MDM2), 和chr4 (PDGFRA),另外还包括一些单基因区域的扩增(SOX2, MYCN, CCND1, CCNE2);最显著的反复出现的缺失区域为6q26。

3、利用基因组和转录组测序定义结构重组

利用42对肿瘤及其种系的DNA样本进行了全集因组测序,利用164个样本进行了转录测序,将测序结果利用BreakDancer,BamBam和PRADA(融合基因)分析其基因组重组信息。结果得到了238个高可信度的候选体细胞重组,包括49个染色体间的,125个染色体内的和64个基因内结构的。在7个基因内检测到了反复性出现的基因内事件。分别为:EGFR (n = 12), CPM (n = 3), PRIM2 (n = 3), FAM65B (n = 2),PPM1H (n = 2), RBM25 (n = 2), and HOMER2 (n = 2)。
RNA测序分析得到了48个染色体间的和180个染色体内的融合转录本。
WGS检测的42个样本中有11个在染色体12q上发生重组,RNA测序的164个样本中,25例也检测到了12q相联系的融合转录本。

4、EGFR频繁的发生扩增和突变

上述检测显示EGFR是最常见的突变基因,RNA-seq也检测到了多种剪切转录本。大多数样本中EGFR的突变往往伴随着区域的DNA扩增,所以导致大范围等位突变的等位基因频率。和DNA点突变的等位基因频率相比,RNA测序数据显示DNA水平突变类型和mRNA转录本表达组成高度一致。
RNA测序也提供了一个完整的图谱关于异常的外显子拼接和它们表达水平的半定量。在11%肿瘤样本中,外显子1-8异常拼接时EGFRvIII表达量较高,反之,19%是低表达的。我们鉴定了两个相对不典型的常见EGFR突变,即28.7%的12-13外显子缺失,3%的14-15外显子缺失。
综上所述,38.4%的样本都存在EGFR基因组重组或是点突变,影响至少10%转录本表达。57%的GBM都有证据显示EGFR突变,重组,可变剪切,局部扩增。

5、GBM体细胞突变的整体分析

外显子和转录组测序数据再扩展到体细胞突变共同影响癌症通路。研究显示,突变的互斥性影响了p53通路 (MDM2, MDM4, TP53), Rb通路(CDK4, CDK6, CCND2, CDKN2A/B, RB1), PI3K通路(PIK3CA, PIK3R1, PTEN, EGFR, PDGFRA,NF1)。同时我们用上述因素验证其与生存期的关系,显示CDK24和EGFR的扩增,CDKN2A的缺失在长生存期样本中频率降低。

6、根据mRNA表达和DNA甲基化对GBM的分子分型

先前报道中利用基因表达将GBM分为4型,分别为: proneural, neural, classical, mesenchymal transcriptomic。本次我们会利用TCGA的甲基化数据将样本进行分类。利用层次聚类的方法,将2个平台的396个样本进行分析,得到了6个亚型(M1,M2,M3,M4,G-CIMP,M6)。G-CIMP聚类富集的是proneural亚型肿瘤。联合基因组突变在亚型中分布,证明了PDGFRA扩增和非G-CIMP的关联,以及NF1失活与mesenchymal亚型的关系。另外在G-CIMP亚型中检测到ATRX突变和MYC扩增。在proneural亚型中检测到了CDK4和SOX2的扩增,在classical亚型中检测到了19和20号染色体上的大片段扩增。
分子分型结果与临床结果联合分析表明,GBM中proneural型的预后优势依赖于G-CIMP的状态。非G-CIMP的proneural型和非mesenchymal型的GBM在初治后前12月预后效果不佳。所以G-CIMP亚型中目标基因可能影响proneural型GBM的预后效果。
MGMT是甲基化是已经报道的治疗标志物。本次检测中48.5%的病例中检测到MGMT的甲基化,其中G-CIMP病例显示甲基化可能性更大(79%)。与治疗结果相关联,MGMT状态可将classical型病例分为应答和非应答两类。

综上所述,对超过500例GBM各组学数据的整合分析,我们首先证实了一些新的突变基因和复杂的基因重组,包括EGFR和PDGFRA。TERT启动子突变与mRNA的表达有关;相关性分析显示proneural型的预后优势与G-CIMP亚型有关;MGMT的DNA甲基化可能会成为GBM中classical亚型的应答分子标志物。

参考文献:Brennan CW, Verhaak RG, McKenna A, Campos B, Noushmehr H, Salama SR, et al. The somatic genomic landscape of glioblastoma. Cell 2013;155:462

 

 

案例二:

题目:全外显子组测序解析癌症基因组的结构变异(Analyzing Somatic Genome Rearrangements in Human Cancers by Using Whole-Exome Sequencing)

研究背景:基因组结构变异(SV)是基因组变异的一种,它包括基因组的缺失、重复、倒位和易位。基因融合是SV的一种,即指将两个或多个基因的编码区首尾相连.置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下。人类基因组上的融合基因研究对于基因组进化,群体多态性分析以及疾病易感性等方面的研究有着重要的意义。全外显子测序技术通常用来研究基因组中的单核苷酸变异和小片段序列的插入或者缺失,而基因组结构变异往往是采用全基因组测序数据进行分析。由于全外显子测序数据拥有很大的数据量以及测序深度,因此当SV的断点处于外显子区域或者靠近外显子区域时,解析全外显子测序数据可以帮助找寻致病的融合基因,并为研究和了解疾病的致病机理提供新的思路。

研究方法:

1、方法原理:外显子测序的探针一般会设计在外显子区域以及外显子与内含子的交界处。因此当融合SV的断点发生在外显子区域或者靠近外显子区域的时候,解析高深度和覆盖度的外显子测序数据可以有效捕捉这些SV断点。

2、研究流程:

研究结果:

1、解析WES数据可以有效找寻融合基因

通过分析120个样本的WES数据和WGS数据,分别找到102个和7204个高置信度的融合SVs。将2组融合基因结果的对比。发现有61%的融合SVs同时在WES和WGS的分析结果中被捕获,即有约39%的融合基因仅在WES的数据中被捕获。作者从中选取了27个高置信度的融合基因进行PCR验证,发现其中21个SV可以被实验验证。发现说明解析WES数据是一种发现新的、潜在的、与疾病相关的融合基因的新方式。

2、大规模数据中融合基因的捕获和探索

作者下载分析了TCGA中4609个样本(已去除250个低质量样本,涵盖了15种癌症)的WES数据,共发现9171个高置信度融合基因,其中在乳腺癌中捕获的融合基因最多,而肾脏肿瘤和乳头状细胞瘤中的融合基因最少。

作者定义满足以下要求的融合基因称为“激活”融合基因(如下图):1)融合基因必须保持相同的转录方向;2)融合基因3‘端的基因必须差异上调;3)融合基因断点附近至少又有一基因差异表达。在“激活”融合基因中发现了不少已经报道过的致病融合基因,并且通过全外显子测序分析可以清晰的了解到融合基因两端的两个基因在不同基因层面上结合方式。

3、融合基因结合模式探索

作者发现融合基因的3’端基因往往是致癌基因,而5’端的基因往往是看家基因。通过功能富集分析发现,无论在3’端还是5’端的融合基因均富集到了染色体的调控相关功能上。

4、 体内/体外实验验证实验

作者通过体内和体外实验验证了CEP85L-ROS1等融合基因与细胞的生存能力,肿瘤的大小以及生存相关。

5、关联分析

每个染色体上融合基因的发生频率是不同的,而且不同疾病其融合基因在染色体上的分布也是不一致的(下图上)。通过基因表达与融合基因之间的关联分析,作者发现融合基因的发生与致癌基因的上调相关(下图下)。

参考文献:

Yang L, Lee MS, Lu H, Oh DY, Kim YJ, Park D, et al. Analyzing Somatic Genome Rearrangements in Human Cancers by Using Whole-Exome Sequencing. American journal of human genetics 2016;98:843.

常见问题

1外显子测序适用于什么种类的研究?
外显子CDS区大小在人类基因中占1~2%,却包含85%的致病突变。外显子组测序主要针对编码区进行检测,所以主要适用于编码区潜在变异引起的疾病研究。外显子测序性价比高,尤其适合高深度、大样本量的测序,可找出常见突变及低频突变,主要应用在孟德尔遗传病及肿瘤等复杂疾病的研究。
2外显子测序可以检测哪些类型的变异?
外显子捕获是一个杂交捕获的过程,探针与不同外显子区段的杂交效率并不相同,进而不同外显子区段的覆盖深度差异较大,因此通常外显子测序不能用于CNV的检测。但我们采用国际主流软件和长期优化的分析方法可以针对单个样本进行SNP、InDel和CNV变异检测。
3使用的捕获平台是什么,有哪些优势?
我们使用的是Agilent SureSelect Human All Exon V6捕获平台,作为唯一一款单个样本捕获的液相杂交捕获平台,该产品汲取多个权威数据库(如RefSeq,OMIM_cds)的核心内容,具有更大的捕获区间,更高的捕获效率,保证外显子编码区的高覆盖率及SNP检出率。
4外显子测序为何强调“有效测序深度”,与“测序深度”的概念有何区别?

首先明确两个概念:
测序深度:测序得到的总碱基数与目标区域大小的比值。
捕获效率:比对到参考基因组中目标区域的数据量占比对到参考基因组上总数据量的比例。
例如:若使用Agilent Sureselect Exome Kit V5,试剂盒的捕获范围为50M,测序得到500M数据量时,测序深度为500/50=10×;但是由于外显子试剂盒会有捕获效率,大约在60%以上,所以实际上目标区域数据量只有500M*60%=300M,目标区域测序深度 300M/50M=6×,称为target depth。

5癌组织为什么要采用高深度测序?
相对于遗传病而言,肿瘤组织样品中突变位点的等位基因频率较低,一方面由于肿瘤细胞在肿瘤组织中的占比偏低,另一方面则由于癌症发展后期产生的突变仅存在于极少量的肿瘤细胞中,采用高深度测序可以尽可能全面的检测到与癌症发生发展相关的变异。通常推荐的外显子测序深度为,癌组织大于100x,癌旁组织/血液大于50x。
6FFPE样本和ctDNA研究适合用外显子测序吗?
适合,FFPE样本和ctDNA由于样本自身的特性,存在DNA片段化、起始量不足等情况,高深度的外显子测序可以通过增加变异位点reads的支持数,提高变异检出的准确性。

联系咨询,请扫下方二维码!

发表评论

电子邮件地址不会被公开。 必填项已用*标注