Cell Genom | 如何利用三維基因組圖譜和機器學習識別胰腺疾病的驅動增強子

2025-11-26

胰腺疾病(糖尿病、胰腺炎和胰腺癌)影響全球超過10%的人口,造成巨大的健康和經濟負擔。胰腺由外分泌(腺泡和導管細胞)和內分泌(α、β、δ細胞)兩liang個ge功gong能neng區qu組zu成cheng,這zhe些xie細xi胞bao在zai發fa育yu過guo程cheng中zhong源yuan自zi共gong同tong祖zu細xi胞bao,但dan具ju有you高gao度du特te化hua的de功gong能neng。增zeng強qiang子zi作zuo為wei非fei編bian碼ma調tiao控kong元yuan件jian,在zai建jian立li和he維wei持chi細xi胞bao身shen份fen中zhong發fa揮hui關guan鍵jian作zuo用yong。然ran而er,GWAS研究發現超過90%的疾病相關SNP位於非編碼區,其中80%以上位於增強子區域,我們不清楚這些非編碼變異影響哪些增強子、這些增強子調控哪些靶基因、以及這種調控在哪種細胞類型中發揮作用。

盡管已有研究通過開放染色質分析和表觀遺傳標記在人類胰腺中鑒定了候選增強子區域,但缺乏大規模、細胞類型特異性的增強子-啟動子3D互作圖譜。現有少數3D染(ran)色(se)質(zhi)研(yan)究(jiu)要(yao)麼(me)局(ju)限(xian)於(yu)整(zheng)體(ti)胰(yi)島(dao)分(fen)析(xi)而(er)無(wu)細(xi)胞(bao)類(lei)型(xing)分(fen)辨(bian)率(lv),要(yao)麼(me)樣(yang)本(ben)量(liang)過(guo)小(xiao)。此(ci)外(wai),在(zai)固(gu)體(ti)器(qi)官(guan)如(ru)胰(yi)腺(xian)中(zhong)進(jin)行(xing)細(xi)胞(bao)類(lei)型(xing)特(te)異(yi)性(xing)的(de)增(zeng)強(qiang)子(zi)功(gong)能(neng)驗(yan)證(zheng)極(ji)具(ju)挑(tiao)戰(zhan)性(xing)。因(yin)此(ci),迫(po)切(qie)需(xu)要(yao)一(yi)套(tao)係(xi)統(tong)性(xing)方(fang)案(an)來(lai)繪(hui)製(zhi)增(zeng)強(qiang)子(zi)互(hu)作(zuo)圖(tu)譜(pu)、預測增強子功能重要性,並在原代組織中實現單細胞水平的實驗驗證,從而為解析胰腺疾病的遺傳學基礎提供工具和資源。

 

 

DOI:10.1016/j.xgen.2025.101040

 

2025年10月16日,美國NIH國家癌症研究所H. Efsun Arda課題組在《Cell Genomics》發表題為“Predictive prioritization of enhancers associated with pancreatic disease risk”的研究論文。該研究通過整合多組學技術(包括ATAC-seq和HiChIP),測繪了五種人類胰腺細胞類型(α、β、δ、腺泡和導管細胞)的增強子-啟動子三維互作圖譜,並創新性地開發了機器學習算法EPIC,以預測和優先排序增強子對細胞特異性基因表達的功能影響。通過在原代細胞中進行CRISPR功能驗證,該框架成功將與糖尿病、胰腺癌等疾病相關的遺傳風險位點與特定的細胞類型、候(hou)選(xuan)增(zeng)強(qiang)子(zi)及(ji)其(qi)靶(ba)基(ji)因(yin)相(xiang)連(lian)接(jie),其(qi)中(zhong)一(yi)項(xiang)關(guan)鍵(jian)發(fa)現(xian)是(shi),胰(yi)腺(xian)癌(ai)的(de)遺(yi)傳(chuan)風(feng)險(xian)與(yu)腺(xian)泡(pao)細(xi)胞(bao)的(de)調(tiao)控(kong)元(yuan)件(jian)表(biao)現(xian)出(chu)比(bi)導(dao)管(guan)細(xi)胞(bao)更(geng)強(qiang)的(de)關(guan)聯(lian)性(xing),為(wei)理(li)解(jie)疾(ji)病(bing)機(ji)製(zhi)提(ti)供(gong)了(le)新(xin)的(de)視(shi)角(jiao)。

 

 

 

 

 

研究思路/技術路線

 

 

 

關鍵研究結果

 

繪製胰腺細胞特異性的三維基因組互作圖譜

該研究首先建立了高分辨率、細胞類型特異性的染色質互作圖譜。研究人員從28位器官捐贈者的胰腺組織中,通過FACS分離出五種高純度的細胞群體:α-細胞、β-細胞、δ-細胞、腺泡細胞和導管細胞。隨後,他們對這些細胞同時進行了ATAC-seq和H3K27ac HiChIP測序分析。HiChIP結果鑒定出349,749個染色質互作,這些互作涉及80,947個增強子和35,802個啟動子,覆蓋116,935個開放染色質區域。不同細胞類型展現出高度特異的互作模式:內分泌細胞(α、β、δ)之間的互作模式相似度較高,而外分泌細胞(腺泡和導管)則呈現截然不同的調控網絡。其中73%的增強子跳過最近的基因進行遠程調控,互作中位距離達到125 kb,這表明簡單的"最近基因"注釋策略會導致大量誤判。通過ATAC-seq分析結果發現啟動子的染色質互作連接性遠高於增強子:90%的啟動子參與多個互作(中位數7個連接),而增強子僅34%參與多個互作。

 

構建“增強子-啟動子樹”模型以解析基因調控網絡

為了係統性地解析複雜的染色質互作數據,研究人員引入了基於圖論的“增強子-啟動子樹”模型。在該模型中,每個基因的啟動子被定義為“樹根”,所有與之發生染色質互作的增強子則構成“樹枝”上的節點,而互作本身則為連接節點的“邊”。這種建模方式使得對基因調控的複雜性和層次性進行定量分析成為可能。

 

分析這些“樹”模型揭示了幾個關鍵的調控規律。首先,絕大多數增強子通過直接的染色質環與啟動子相連(即E1增強子),並且這些直接互作的增強子往往比間接互作的增強子(E2)更能跨越更長的線性基因組距離。

 


其次,超過80%的增強子會跳過其線性距離上最近的基因,而去調控一個更遠端的基因;這些被遠端調控的基因,其表達水平和細胞類型特異性通常顯著高於被跳過的基因。此外,一個基因所連接的增強子數量(即tree size)與其表達豐度和特異性呈正相關。

 

開發EPIC機器學習模型以預測關鍵增強子

在樹模型的基礎上,研究開發了一種名為EPIC(Enhancer Prioritizer using Integrated Chromatin data的機器學習算法,其核心目標是預測並排序對基因表達貢獻最大的增強子。該算法使用k-近鄰(k-NN分類器,整合了來自樹模型的多種染色質特征(如增強子的ATAC-seq信號強度、HiChIP互作頻率等)作為輸入變量,用以預測一個基因是否具有細胞類型特異性表達。

 

EPIC算法最具創新性的一點在於其評估增強子功能重要性的方法。通tong過guo在zai模mo型xing中zhong以yi迭die代dai的de方fang式shi模mo擬ni刪shan除chu每mei一yi個ge增zeng強qiang子zi節jie點dian,並bing計ji算suan該gai刪shan除chu操cao作zuo對dui模mo型xing預yu測ce準zhun確que性xing造zao成cheng的de影ying響xiang,算suan法fa能neng夠gou為wei每mei個ge增zeng強qiang子zi賦fu予yu一yi個ge量liang化hua的de“效應值”

 



效應值越高的增強子,意味著其對維持靶基因的特異性表達貢獻越大。為了驗證EPIC的預測能力,研究人員在原代胰腺細胞中利用CRISPRa技術激活EPIC預測出的高效應值增強子,並通過RNA-FISH單細胞成像技術觀察到靶基因(PCSK1和PCSK2)表達的顯著上調,實驗結果與模型的預測高度吻合。

 

鏈接胰腺疾病遺傳風險位點與候選功能元件

最後,該研究將建立的分析框架應用於解析胰腺相關疾病的遺傳基礎。通過將GWAS發現的疾病風險SNPs與細胞特異性的增強子圖譜進行整合分析。結果發現,2型糖尿病(T2D)的風險SNPs如預期般在胰島細胞(尤其是β-細胞)的增強子中顯著富集

 

重點是,與胰腺導管腺癌(PDAC)相關的遺傳風險變異,在腺泡細胞增強子中的富集程度顯著高於傳統的嫌疑細胞——導管細胞

 

為了驗證這一關聯,研究團隊鎖定了一個位於XBP1基因座的腺泡細胞特異性增強子,該增強子富含PDAC風險SNPs,且被EPIC預測為高效應值。通過CRISPRi技術抑製該增強子的活性,他們成功地在原代腺泡細胞中觀察到XBP1基因轉錄水平的顯著下降,從而證實了該風險位點與靶基因之間的功能聯係。這一係列結果證明,該研究建立的技術路線能夠有效地將GWAS發現的抽象風險位點,轉化為具體的細胞類型、功能元件和靶基因,為深入理解疾病的發病機製提供了關鍵線索。

- - - 推薦閱讀 - - -