GeneChip®Human Transcriptome Array 2.0(HTA2.0)
2017年2月22日
TCGA大数据分析
2017年2月22日

人全基因组重测序

人全基因组重测序是对人类个体进行全基因组测序,扫描整个人基因组上可能发生的变异,可全面挖掘基因组的SNP/InDel/CNV/SV等各类变异。全基因组重测序可为筛选疾病的致病及易感基因,研究发病及遗传机制提供重要信息。

上海其明利用illumina高通量测序平台进行人全基因组重测序,用生物信息学分析不同个体基因组间的差异, 并通过多个基因组变异相关数据库的注释,帮助您在全基因组水平上扫描并检测特定人群的重要遗传性状相关位点。

 

技术优势

  • 全面挖掘DNA水平的遗传变异

全基因组重测序可全面覆盖基因组范围,检测基因组上的SNP/InDel/CNV/SV等各类变异,一次性挖掘大量的潜在的关键变异信息

  • 准确性高、可重复性好、定位精确

illumina HiSeq X测得的数据偏差小、高均一性,能真实反应样本基因组信息

  • 周期短、高通量

illumina HiSeq X平台测序周期短、通量高(读长PE150,通量2T/run,周期3天), 可满足大量样本多个目标区域的研究

应用方向

 

 

  • 流程

 

 

  • 生信分析

 

 

  • 产品参数
产品类型 平台 推荐数据量 周期
全基因组测序 HiSeq X (PE 2*150) ≥90G clean data

测序深度 30×

30天


样本是所有数据的源泉,其好坏直接影响后续的检测能否完成,得到的数据是否可靠。为了获得可靠的数据,需要精心准备和处理样本。

首先是根据试验设计确定样本的分组与入组标准:样本共分几组?每组样本的入组标准是什么? 以及每个样本采集多少量?确定好这些指标或标准之后,就能在收集样本时确保组内的样本尽量一致(比如癌旁样本很容易受到手术切缘距离的影响,离肿瘤太近会影响后续的检测分析结果),以减少实验误差,保证结果真实可靠。

其次,对于不同的样本类型,需要根据样本特征用合理的方法收集并处理样本。其次,对于不同的样本类型,需要根据样本特征用合理的方法收集并处理样本。

样本种类 单个样本量
DNA >1 ug

浓度:>25 ng/uL

纯度:OD(260/280)=1.8~2.0

全血 >1 mL
组织样-手术取样 >1 g
组织样-穿刺取样 1针以上
石蜡切片(FFPE)-肿瘤切片 10张以上
石蜡切片(FFPE)-肿瘤穿刺 20张以上
细胞样本 2×10^6个
口腔试子 1~2个棒子

饭后0.5,来回20下

 

  • 样本碱基质量图

图1 样本Q30折线图

           (以样本为横坐标,样本的Q值为纵坐标,展示每个样本的Q20和Q30的大小)

  • 原始测序产量

图2 原始测序产量

(以样本为横坐标,样本的原始测序产量为纵坐标,展示每个样本的数据产量)

  • 平均测序深度

图3 原始测序产量

(以样本为横坐标,样本的平均测序深度为纵坐标,展示每个样本的平均测序深度)

 

  • 全样本SNP转换和颠换占比

图4 全样本SNP转换和颠换占比

(以样本为横坐标,样本的SNP转换和颠换占比为纵坐标,展示每个样本的SNP转换和颠换占比)

 

  • 全样本SNP突变图谱

图5 全样本SNP突变图谱

(以样本为横坐标,6种不同的突变类型在样本中的突变数量为纵坐标,展示样本间突变频谱的差异)

  • 样本注释结果(以样本GCS165939的SNP结果为例)
 Name Number
Total(突变总数) 1247105
Known(在dbSNP中具有rs编号) 1038106
Novel(新的突变) 208999
Transitions(转换) 788444
Transversions(颠换) 463323
Homozygous(纯合型) 691142
  • 非同义突变频率Top30基因(以样本GCS165939的SNP结果为例)

图6  GCS165939(SNP)中非同义突变频率Top30基因

(以包含非同义突变数量最大的30个基因为横坐标,非同义突变数量为纵坐标,按照非同义突变数量从大到小进行排序)

  • 高频基因突变事件Top30(以样本GCS165939的SNP结果为例)

图7  GCS165939(SNP)中国人群高频基因突变事件Top30

案例一:

题目:

全基因组测序揭示II型糖尿病的遗传结构(The genetic architecture of type 2 diabetes)

摘要:

通过全基因组关联研究已经确定了II型糖尿病相关的几个常见变异,但这些只解释了疾病遗传性的一小部分。为了测试低频变异来尝试解释剩下的大部分假设,GoT2D联盟和T2D-GENE联盟对有或没有糖尿病的2,657名欧洲人进行了全基因组测序,同时在来自五个群体的总共12940名受试者中进行全外显子捕获测序。为了增加统计的可信度,研究组额外扩充了111548名受试者的基因分型数据。测序结果发现与II型糖尿病相关的变异大多是常见的,大多数属于先前通过全基因组关联分析鉴定出的区域。序列变异数据的研究对影响疾病病理生理变化的功能性等位基因是必须的,但是大规模测序的结果不支持低频变异在糖尿病易感性中的主要作用。

方法流程:

参考文献:

Fuchsberger C, Flannick J, Teslovich TM, Mahajan A, Agarwala V, Gaulton KJ, et al. The genetic architecture of type 2 diabetes. Nature 2016;536:41.

案例二:

题目:

通过膀胱癌全基因组测序揭示体细胞CDKN1A突变和突变负荷(tumor mutation burden,TMB)的临床病理学关联(Whole-genome sequencing of bladder cancers reveals somatic CDKN1A mutations and clinicopathological associations with mutation burden)

摘要:

膀胱癌是恶性肿瘤死亡的主要原因之一。该研究使用全基因组测序来鉴定14个不同年龄和阶段膀胱癌的体细胞突变和染色体变化。通过检测已知的膀胱癌驱动突变,我们发现导致CDKN1A和FAT1中蛋白质失活的突变。CDKN1A突变与TP53突变或MDM2扩增并不是相互排斥的,显示CDKN1A功能失活不是简单的p53途径失活的另一种机制。我们发现在较高的肿瘤阶段/年龄和更大的克隆多样性之间存在强关联。基本上可以认定在早期或低年龄具有更大的多样性和/或突变负担的亚克隆肿瘤可以识别具有高侵袭性进展风险的病变。

方法流程:

1、对14例膀胱癌临床患者进行全基因组测序检测,测序平均覆盖度约80X。

2、对测序数据进行分析,绘制14例膀胱癌的基因组变异图谱,包括变异数量及变异类型统计。

3、将分析获得的基因组变异图谱与TCGA膀胱癌做比较

4、分析变异数据,寻找潜在的驱动基因(driver-gene)

5、过滤掉肿瘤中已发现的驱动基因,发现新的驱动基因MDM2

6、通过免疫组化检测46个病例样本中TP53、CDKN1A、P21等蛋白表达量

7、进行临床病理-分子关联分析获得关联结果

参考文献:

 Cazier JB, Rao SR, McLean CM, Walker AK, Wright BJ, Jaeger EE, et al. Whole-genome sequencing of bladder cancers reveals somatic CDKN1A mutations and clinicopathological associations with mutation burden. Nature communications 2014;5:3756.

常见问题

1基因从头测序和重测序有什么区别?
基因从头测序也叫做基因de novo测序,是指不依赖于任何已知基因组序列信息对某个物种的基因组进行测序,然后应用生物信息学手段对测序序列进行拼接和组装,最终获得该物种基因组序列图谱。
重测序是指在已知物种基因组的情况下,对物种内的不同个体或某个个体的不同组织进行基因组重测序,可以在全基因组水平上发现不同个体或组织细胞之间的差异。
2全基因组测序相对于全外显子组测序的优势是什么?
全外显子组测序捕获基因组的外显子区域,其基因组信息约占基因组大小的1.5%;全基因组测序对于全基因组层面来说,变异信息更全面,没有止步于编码区,而是向整个非编码区扩展,性价比更高,平均数据单价较全外显子组测序便宜了5倍以上。近些年非编码区突变的研究越来越多,其可与多种癌症在内的复杂疾病发生相关。
3全基因组测序的测序深度如何选择?
测序深度根据研究目的、样本量及合作伙伴的预期而定。30×测序深度即可检测绝大部分SNV,但如果客户的研究目的是寻找癌组织中较大的结构变异、少数肿瘤细胞携带的丰度较低的突变,建议测序深度(一般)至少50×以上;群体重测序可以使用较低深度测序(~10×),用群体分析策略寻找相关变异。
4全基因组测序技术适用的研究方向有哪些?
全基因组测序可以应用于孟德尔遗传病研究、复杂疾病研究、罕见病研究、新生突变研究、药物基因组研究、疾病分子分型研究、人群队列数据库构建及群体进化研究等。特别对于包括癌症、精神分裂症、智力障碍在内的复杂疾病,非编码区变异及CNV/SV结构变异皆与疾病的发生具有密切的关系,全基因组测序可以结合非编码区变异信息和结构变异信息全面挖掘致病突变位点。
5FFPE样本为什么不推荐使用全基因测序?
FFPE样本提取的DNA多数存在降解的情况,基因组呈现片段化,CNV/SV等结构性变异检出的假阳性率较高,无法体现全基因组测序在结构变异检测方面的优势,且通过增加测序深度提高变异检出准确性的成本太高。
6什么是SNP、InDel、CNV、SV?
单核苷酸多态性(single nucleotide polymorphism,SNP),个体间基因组DNA序列同一位置单个核苷酸变异(转换、颠换或缺失)所引起的多态性。SNP可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

InDel指基因组上小片段(>50bp)的增加或缺失。

基因组拷贝数变异(copy number variation,CNV)指基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。

染色体结构变异(structure variation,SV)是指在染色体上发生了大片段的变异,主要包括染色体大片段的增加和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组等。

联系/咨询,请扫下方二维码!

发表评论

电子邮件地址不会被公开。 必填项已用*标注