表觀基因組是目前多組學研究的熱點,而DNA的甲基化修飾又是表觀遺傳研究中最重要的領域。DNA甲基化修飾是基因表達調控的重要方式,在分化、發育、基因印跡、X染色體失活與維持組織特異性等眾多方面起著重要作用。同時在許多復雜疾病,如癌癥、神經系統紊亂、糖尿病等,的發生發展也與DNA甲基化有著千絲萬縷的關系。
在后基因組時代,隨著高通量技術成本的日益降低,海量組學數據與研究結果讓我們越來越認識到生命現象的復雜性。目前的研究前沿越來越傾向于以多組學的角度:從遺傳和表觀遺傳到轉錄和代謝,從機制到表型,進行整合研究以得到全局結果。
在當前的科研需求下,Illumina的甲基化芯片Infinium MethylationEPIC BeadChip(簡稱850k芯片),提供了性能優越且經濟可靠的甲基化解決方案。850K芯片是在原450K芯片巨大成功的基礎上,推出了新一代的DNA甲基化芯片。在數據上既包含了原450K芯片91%的位點,以充分利用原有450K珍貴數據,又增加了413,745個位點(總共853,307個CpG位點)。850K芯片全面覆蓋基因啟動子區、基因編碼區、CpG島以及ENCODE及FANTOM5計劃中發現的增強子區(圖 1)。
850K甲基化芯片不但是腫瘤和其他復雜疾病研究的有力工具,也是目前最適合表觀全基因組關聯分析(EWAS)研究的DNA甲基化研究技術。

圖 1 Illumina BeadArray與850K 甲基化芯片的示意圖。芯片上有超過850,000個直徑3微米,間距約5.7微米的硅珠,每個硅珠上覆蓋了幾十萬條特定的寡核苷酸探針,對目的CpG位點的甲基化進行檢測。
一、 芯片原理
850K芯片沿承了Illumina應用在450K芯片中經典的BeadArray技術,通過Infinium I及II探針設計,在對目標區域全面覆蓋的同時也保證數據穩定可靠。
Infinium I的設計是通過兩種不同的探針的信號值來區分甲基化的CpG位點(C)和非甲基化的CpG位點(T)的比例;而在Infinium II的設計中,每個檢測位點只設計一個探針,通過比較該探針摻入的兩種熒光的信號值來計算目的位點的甲基化比例。詳見下表與圖3。
表格 1 Infinium I 及Infinium II探針原理
探針類型 | 探針介紹 | 反應類型 | 標記類型 | β值計算方式 | ||
Infinium I 探針 | U型磁珠:尾部為A,用來檢測非甲基化位點(T) | 單堿基延伸原理:僅當探針最后一個堿基與模板配對時,熒光標記的核苷酸才能摻入并被檢測到熒光信號。 | ddTTP-DNP | β=M/(M+U+100) | ||
M型磁珠:尾部為G,用來檢測甲基化位點(C) | ||||||
Infinium II 探針 | 只使用一種磁珠,探針末端為C,與目的位點的前一個堿基配對,只延伸一個堿基(ddATP-DNP, ddGTP-BioT分別與非甲基化或甲基化位點配對)。 | 普通延伸反應 | ddATP-DNP | β=G/(G+A+100) | ||
Infinium I與Infinium II 探針設計原理圖

圖 2 Infinium I與Infinium II 探針設計原理圖:在InfiniumI設計中,每個甲基化位點都對應設計有兩種探針:M型磁珠、U型磁珠分別檢測甲基化位點(C)。和非甲基化位點(T)。根據單堿基延伸的原理,僅當探針最后一個堿基與模板配對時,熒光標記的ddNTP才能摻入并被檢測到熒光信號,并根據M和U的熒光信號的結果計算甲基化值。而Infinium Ⅱ 探針只使用一種磁珠,通過延伸的A或G堿基(分別對應非甲基化與甲基化位點)的信號值計算目的位點的甲基化程度。
二、 850k芯片技術特點:
1. 全面的基因組覆蓋范圍:檢測>853,000個CpG位點,全面覆蓋CpG島、啟動子、編碼區、開放染色質和增強子。此外還包括CpG島外的CpG位點,已知DMR位點,脫氧核糖核酸酶超敏位點以及miRNA啟動子區域。
2. 高質量的數據:同時采用Infinium I及II探針設計,使檢測范圍最大化。
3. 分辨率高:單堿基分辨率,可以直接檢測到發生甲基化的確切位點。
4. 可重復性高: 自身技術重復相關性R2 > 0.98;與450K交集探針間相關性R2 > 0.98。
5. 起始模板量低:僅需 250ng,大大節約了樣品量。
6. 適用于FFPE樣本。
三、 850K芯片探針覆蓋技術參數
850K芯片傳承了450K芯片對基因組的功能元件的設計理念,有目的性地對CpG島以及基因及實現了空前全面覆蓋,下圖及表格統計展示了850K芯片對于不同染色體、基因組功能元件的覆蓋及分布。以上的設計不但可從泛-增強子及編碼區域角度分析甲基化組,還在全基因組表觀遺傳關聯研究(EWAS)中發揮重要作用。850K芯片中包含的一系列有價值的位點:

? CpG島及島外的CpG位點(Island:17.8%, Shore: 16.9%, Shelf: 8.8%, Open sea: 56.5%)
? 人類胚胎干細胞中的非CpG甲基化位點(CHH位點)
? 腫瘤vs正常(多種類型的癌癥),以及不同組織間的差異甲基化位點
? FANTOM5增強子, ENCODE開放染色質和增強子
? DNase I超敏位點
? miRNA啟動子區域

圖 3. 850K 芯片探針在不同染色體及基因組功能元件中的分布。
四、 芯片數據的可靠性
Illumina Infinium Methylation EPIC是一款優秀的芯片,秉承了450K芯片可靠而穩定的特點。基于Infinium I 與InfiniumII的靈活設計,使得探針可通過簡并堿基的原則覆蓋于CpG位點密集的區域,同時保證目的位點的結果不受到周圍CpG位點的影響。
芯片數據的穩定與可靠可以通過芯片的技術重復直觀的體現,對于850K芯片,其本身的技術重復相關性R2>0.98,而且850K芯片與450K芯片有交集的探針的結果的相關R2>0.98。此外,相同樣本在Illumina甲基化芯片與WGBS兩種技術平臺中產出的數據相關性R2>0.95。

圖 4 EPIC芯片自身技術重復間的相關性以及與450K有交集的探針間的相關性R方都在0.98以上。此外450K芯片與WGBS的交集位點的相關性R2>0.95
五、 850K芯片對于FFPE樣品的通用性
目前生物樣本庫中的大部分標本都是FFPE樣本,這些樣本不但數量眾多,而且多包含有詳細的病理及隨訪信息,是進行疾病機制研究的珍貴材料。不過經福爾馬林固定、石蠟包埋后的FFPE樣本所抽提的DNA質量很差,不但片段化嚴重,而且會出現大量的未知化學修飾與交聯。Illumina為FFPE樣本的甲基化檢測改進了protocol,對于FFPE樣本可獲得更可靠而穩定的結果。經驗證,對于相同樣本分別進行FFPE與新鮮冰凍處理兩種保存手段下,以及FFPE樣本的技術重復,850K芯片都展示了穩定與優質的數據[1, 2]。

圖 5 850K芯片對于FFPE樣本的可靠性:在官方文件以及驗證性相同標本分別用FFPE處理與新鮮冰凍處理,850K芯片結果的重復相關性R2>0.98(R=0.994)。850K芯片對于FFPE樣本的技術重復相關性(R2>0.98)及檢出率(>90%)。
六、 樣本要求:
1. 樣品總量:每個樣品總量不少于2ug。
2. 樣品濃度:最低濃度不低于50ng/ul。
3. 樣品純度:OD 260/280值應在1.7~1.9 之間。
4. 樣品質量:基因組完整、無降解、無RNA污染,無其他基因組DNA污染。
5. 樣品運輸:DNA低溫運輸(-20℃);且在運輸過程中請用封口膜將樣本密封好,以防出現污染。
七、 數據分析內容
基礎分析 |
1.原始數據預處理 |
2.數據歸一化(甲基化位點總表,含注釋信息) |
3.QC結果(beta值密度曲線,聚類圖,PCA圖,相關性圖) |
4.差異甲基化位點(含注釋信息) |
5.差異甲基化位點的染色體分布 |
6.差異甲基化位點的基因功能注釋與富集 |
7.差異甲基化位點的熱圖展示 |
高級分析 |
1.特定基因組區段的DMR展示 |
2.甲基化與轉錄的關聯分析,網絡圖的構建 |
3.差異甲基化基因中鄰近啟動子區域motif的識別 |
4.其它個性化分析內容。 |
八、 甲基化分析結果示意
1、數據QC結果
通過探針的β值密度曲線、樣本的非監督聚類圖和PCA圖等,整體的展示項目中所有樣本,在組間與組內的差異以及相互關系,不但能夠對樣本整體數據質量有一個直觀的了解,同時還可以考察數據結果與項目設計是否吻合。

圖 6數據QC圖。A. 探針beta值密度曲線圖,將原始數據進行標準化及過濾掉不合格的探針后,對各樣本的探針的β值的分布曲線進行展示,可以比較實驗組與對照組間整體的甲基化分布是否有差異,也可以考察是否有個別樣本的整體甲基化程度發生了改變。B. 樣本的非監督聚類聚類圖,數據接近的樣本,在關系樹中位于更近的位置。C. PCA圖,在二維或三維空間中以空間距離展示樣本間相互關系的遠近。對芯片中超過85萬探針(特征)進行降維處理,以2~3個主成分差異代替85萬個探針的差異。D. 樣本的相關性圖,通過熱圖矩陣的形式,分別比較每個樣本與其余所有樣本間的相關性,可將聚類結果結合相關性圖進行展示。聚類圖、PCA圖以及相關性圖,都是直觀展示樣本間相關性、組間差異以及組內差異的QC結果圖,用于考察實驗數據與項目設計是否吻合。
2、甲基化差異結果
? 差異甲基化位點
差異甲基化的篩選是整個數據分析過程中的主要環節,其中包括差異甲基化位點以及差異甲基化區域(DMR)。
組間的差異甲基化位點中有兩個關鍵值:
? Δβ值:直接用兩組的各CpG位點的甲基化值(β值)相減得到。
? p值:當每組樣本在3個以上時,DMP 的p值是利用 R 語言的 limma 包中的線性模型計算得到。并對p值采用 Benjamini & Hochberg 方法進行多重檢驗糾正。

圖 7差異甲基化位點在染色體定位,高甲基化或低甲基化的基因是否有染色體的偏向性或成簇分布的特點。其中紅色代表實驗組高甲基化位點,綠色代表實驗組低甲基化基因位點,灰色表示甲基化位點在組間沒有變化。熱圖展示顯著差異的CpG甲基化位點在不同組間各樣本中的分布,并可作為樣本分類的標志物。
? 差異甲基化區域(DMR)
在基因組中差異甲基化位點經常會成簇出現,形成一段差異甲基化區域(Differentially Methylated Region, DMR)。DMR代表著某個染色體區段整體的去甲基化或超甲基化,區段的范圍小至數百bp,大到Mb級別[3]。DMR在被認為在基因印記調節、細胞分析等過程中起重要作用。

圖 8. DMR示意圖。在染色體的Kb以至Mb范圍內展示組間的甲基化修飾程度的差異。
3、甲基化與基因組或轉錄組共同分析
生命現象的背后有著復雜的遺傳基礎與精密的調控分子機制,基因組的DNA序列構建了遺傳基礎;甲基化修飾、組蛋白修飾和lncRNA的轉錄前調控,非編碼RNA(包括miRNA, lncRNA與circRNA)的轉錄后調控,以及翻譯后的蛋白修飾等組成了復雜而精密的調控過程;mRNA、蛋白的表達高低或修飾情況以及代謝物的豐度是以上過程為適應環境而共同作用的目的和結果。僅靠單一組學的分析只能在單個層面中得到信息,并不能從整體上理解疾病與生命過程發生的來龍去脈。在后基因組時代,科學研究會朝著更全面、更精細的方向發展,多組學研究以至系統生物學研究將是一個大趨勢。
我們為多組學研究提供了整體解決方案,其中也包括數據分析的思路與結果展示的方法。多組學的分析可通過基因組-轉錄組、基因組-甲基化-轉錄組、甲基化-轉錄組等不同形勢。

圖 9. 甲基化高級分析:A. 甲基化與表達譜相關性熱圖,此類型的圖也可展示其他不同組學的相關性。B. 基因組、轉錄組與甲基化組變異通路圖,可在同一張圖上展示通路中的基因組、轉錄組與甲基化組等不同組學上的變異,以及多組學的變異對通路的影響。C. 關鍵基因的多組學相關性圖,以相關性圖的形式,同時展示關鍵基因在基因組、轉錄組與甲基化等多組學層面上的相關性,共變異或甲基化狀態。
專注組學 精準定位 用心服務 幫您實現科研價值
——