大家好,这是专注表观组学十余年,领跑多组学科研服务的易基因。
上次我们分享了:全基因组DNA甲基化实验怎么做:手把手教你做全基因组DNA甲基化测序分析,深受同学们的欢迎。
本期,易基因小编给您讲讲简化基因组DNA甲基化实验怎么做,从技术原理、建库测序流程、信息分析流程等三方面详细介绍。
简化基因组甲基化测序原理示意图如下:
图1:RRBS工作流程
对DNA样品的检测主要包括2种方法:
(1)Qubit对DNA浓度进行精确定量;
(2)琼脂糖凝胶电泳分析DNA降解程度以及是否有污染;
(1)基因组 DNA 提取:根据不同的样品类型采用不同的提取方案,获取高质量的基因组 DNA。
(2)DNA 质量检测:Qubit 检测 DNA 样品浓度,琼脂糖凝胶电泳检测 DNA 样品完整性。
(3)限制性酶切:通过酶切富集 CpG 片段。
(4)末端修复,加 A,甲基化接头连接:在 DNA 分子两端引入接头序列及 index 序列。
(5)选择 CpG 富集的 DNA 片段:电泳回收选择富含 CpG 的 250-500 bp 片段。
(6)Bisulfite 转化:回收的基因组 DNA,加入 lamda DNA(一种噬菌体 DNA,用于监测重亚硫酸盐测序的转化效率),随后通过 Bisulfite 处理将非甲基化碱基 C 转化成 U。
(7)PCR :PCR 扩增富集文库及纯化PCR产物获得最终文库。
文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/μl,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用qPCR方法对文库的有效浓度进行准确定量(文库有效浓度> 2nM),以保证文库质量。
文库检测合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后在illumina Nova平台测序,测序策略为PE150。
将测序结果与参考基因组比对,比对上唯一位置的序列用于后续标准信息分析及个性化分 析。信息分析流程如下:
图2:RRBS信息分析流程示意图
1、数据产出与质控
测序完成后,对数据进行去除接头序列和低质量过滤,随后将过滤后的数据与参考基因组比对。数据过滤标准为:包含adapter 序列,序列中N 碱基的比例超过序列总长度的5%,序列中质量值小于 5 的碱基比例超过序列总长度的 50%,如果一条序列符合以上三个条件中的任何一个,则去除这条序列。
2、C 碱基有效测序深度的累积分布和覆盖度
以下图为示例,反映了 CpG,CHG 和 CHH 碱基有效测序深度的累积分布(基于有效数据计算)。其中横轴表示碱基有效测序深度,纵轴表示一定测序深度下碱基的覆盖度(占基因组总位点的比率)。
图3:CpG,CHG 和 CHH 碱基累积深度和覆盖度
1、全基因组甲基化水平
每一个甲基化 C 碱基的甲基化水平均按如下公式进行计算:C 位点的甲基化水平 = 100 * 支持甲基化的 reads / (支持甲基化的 reads + 支持非甲基化的 reads)。全基因组平均甲基化水平反应了基因组甲基化图谱的总体特征。以下图为示例,反映了样本的整体甲基化率分布, X 轴表示不同的甲基化率范围,Y 轴表示不同甲基化率范围内 C 位点数目的百分比。可以看出低甲基化C 位点比例较高。后续分析均采用 5X 以上 C 位点。
图4:C位点在不同甲基化率范围的百分比
2、全基因组C碱基的平均甲基化水平
不同分布类型的甲基化C 位点(mC)在不同物种基因组中出现比例不同,因此,各类型甲基化C 位点( mCG、mCHG 和 mCHH ) 的数目,及其在全部 mC 的位点中所占的比例 ( 例:mCHG 所占比例= mCHG 数目/mC 的总数 ),在一定程度上反映了特定物种的全基因组DNA 甲基化修饰特征。
图5:全基因组C 位点平均甲基化水平
3、全基因组三种类型甲基化位点的比例分布
计算全基因组中 CG, CHG 和 CHH 三种类型的甲基化位点的数量和比例。
图6:CG, CHG 和 CHH 三种类型的甲基化位点的数量和比例
4、染色体水平的甲基化和C碱基密度分布
从染色体水平来描述甲基化 C 碱基的的分布情况(仅>50M 的序列)。绿色细线表示以 10kb 的窗口统计甲基化 C 碱基的密度在染色体上的分布情况,光滑曲线则表示不同类型甲基化C 碱基( CG、CHG 和 CHH )的密度分布。
以下图为示例:
图7:染色体上甲基化 C 密度分布示例
说明:X 轴表示某染色体上碱基的位置,左Y 轴表示特定染色体碱基位置上 10kb 窗口内不同类型甲基化C 占该类型所有C 的比例(分为 CG、CHG、CHH,H 代表A 或者T),右 Y 轴表示特定染色体碱基位置上 10kb 窗口内甲基化C 的碱基密度(甲基化 C 数目占总碱基数目的比例)。为了区别CHH 与 CHG 曲线,已将 CHH 甲基化水平×50 倍放大绘出。
5、甲基化 C 位点附近的9bp序列的序列特征分析
分析CG和非CG位点的甲基化的C附近碱基的分布情况,统计不同甲基化模式出现的概率。下图为示例:
图8:CG 位点的甲基化C附近序列特征示例
说明:X 轴表示甲基化 C 碱基(CG、CHG 和 CHH)上下游4bp的位置,Y轴表示特定位置上A、T、C、G 四种碱基的权重值,权重值越高表示其比例越高。
6、分析CpG island 及其周边区域的甲基化水平分布规律
以下图为示例,反映了样本在 CpG island,CpG island shore(CpG island上下游2kb区域)和 CpG island shelf(CpG island 上下游 2000pb 至 4000bp)区域的甲基化水平分布情况。可以看出 CpG island 区域的甲基化水平整体较低,而 CpG island shore 的甲基化水平分布较均匀,更远离CpG island的CpG island shelf甲基化水平最高。
图9:CpG island 及其周边区域的甲基化水平分布
1、CpG 甲基化相关性分析(PCC)
下图示例反映了样本之间 CpG 甲基化率的相关性,圆面积越大,颜色越深相关性越高。