NAR丨SEA version 4.0:超級增強子數據庫重大升級,跨物種解析基因調控

2025-12-11

超級增強子(Super-Enhancer,SE)作為一類具有超強轉錄激活能力的順式調控元件,近年來被認為是決定細胞命運與疾病發生的關鍵“調控樞紐”。但SE在不同物種、細胞類型和疾病狀態下的係統性識別與功能注釋仍是一個巨大挑戰。

2025年10月31日,來自哈爾濱工業大學顧悅/張岩/的團隊在《Nucleic Acids Research》上發表文章“SEA version 4.0: a major expansion and update of the Super-Enhancer Archive”,推出了更新的SEA 4.0版本,這是一個用於係統性搜索、注釋、分析和可視化SE的綜合交互式平台。該平台覆蓋14個物種、54萬+細胞類型、近50萬個SE,是解碼SE在發育和疾病中機製作用的不可或缺的資源。

 

 

關鍵升級與功能亮點

 

跨物種、多組學的超級增強子識別體係

SEA 4.0構建了一套標準化、可重複的計算流程,用於係統性地識別和注釋SE。該版本最大的突破在於新增H3K4me1作為核心識別標誌。傳統上,SE的識別嚴重依賴H3K27ac等活性標記,但H3K4me1作為“預啟動”或“預備”增強子的標誌,能夠有效識別那些尚未完全激活但具有調控潛能的區域。文章指出,整合H3K4me1可將SE的預測準確性提升27.3%。該流程整合了來自ENCODE、GEO等公共數據庫截至2024年12月的海量數據,使用Bowtie2進行序列比對,MACS2進行峰檢測,並采用ROSE算法將相距在12.5 kb以內的相鄰增強子“縫合”成潛在的SE。為了確保結果的可靠性,流程中嚴格排除了轉錄起始位點±2.5 kb範圍內的區域,並過濾掉長度小於1 kb的候選SE,此舉有效消除了89%的非功能性染色質環幹擾,將假陽性識別率較SEA 3.0降低了41%。

 

 

SE活性元素評分係統:量化調控強度

為更精確地衡量SE的調控強度,SEA 4.0創新性地提出了“SE活性元素” 的概念及其量化評分算法。一個SE活性元素被定義為一個包含組成型增強子、染色質可及性區域和轉錄因子結合位點的完整功能基因組單元。其最終得分(scoreAE)並非單一信號,而是三個核心基因組特征的加權整合:

  • 組成型增強子信號:計算每個增強子區域的標準化峰值信號,並按其有效長度占整個SE長度的比例進行加權。
  • 染色質可及性信號:整合來自23個人體組織的56個ATAC-seq數據集,同樣按可及性區域的有效長度進行加權。
  • 轉錄因子結合富集:彙總SE區域內所有TFBS的富集分數,乘以位點數量,並進行長度歸一化。

 

基於Shannon熵的SE特異性分析:精準定位細胞身份開關

SE的核心特性之一是其高度的細胞類型特異性。SEA 4.0在v3.0的基礎上,優化了基於Shannon熵的算法來量化這種特異性。其原理是:一個在多種細胞中均活躍的“通用型”SE,其活性分布均勻,熵值較高(接近log₂(n));而一個僅在特定細胞中活躍的“特異性”SE,其活性高度集中,熵值接近於0。SEA 4.0的關鍵改進在於引入了歸一化程序,以消除SE長度巨大差異所帶來的偏差。算法首先計算每個基因組區域的歸一化信號(即其組蛋白修飾峰值信號按其有效長度比例加權之和),再基於此歸一化值計算跨細胞係的Shannon熵。

 

交互式調控網絡與腫瘤特異性SE檢測器:從靜態數據到動態分析

SEA 4.0超越了靜態數據倉庫的定位,提供了兩大動態分析工具:

交互式調控網絡:用戶輸入一個基因、轉錄因子或SE的標識符,工具即可在人類或小鼠中構建一個一階鄰居交互網絡。該網絡以圖形化方式動態展示查詢實體與相關聯的增強子、SE和TF之間的連接。點擊網絡中任一節點,可實時展開其直接互作對象,支持用戶深入探索調控子網絡,所有數據均可導出。

腫瘤特異性SE檢測器:該工具專為癌症研究設計,整合了來自12種癌症類型及其正常對照的scRNA-seq數據,涵蓋超40萬個單細胞。利用Seurat和Harmony進行細胞聚類與批次效應校正,通過SingleR進行細胞類型注釋,最終通過比對細胞類型特異性標記基因與已知SE相關基因集,來鎖定腫瘤內特定細胞亞群(如癌細胞、免疫細胞)特有的SE,並通過t-SNE/UMAP圖和小提琴圖進行可視化

 

多功能注釋模塊:從CRISPR靶點到異染色質區域

SEA Browser支持多軌道基因組數據疊加瀏覽,包括:DNA甲基化、Hi-C三維互作、染色質可及性、調控元件、SpCas9靶點等信息,用戶可對任一SE進行GO/KEGG富集分析、轉錄因子結合富集分析、特異性評分計算等。

 


SEA version 4.0的發布,標誌著超級增強子研究從“注釋型數據庫”向“功能型分析平台”的跨越。其跨物種、多組學、交互式、單細胞分辨率的設計理念,為解析SE在發育、分化與疾病中的動態調控提供了係統性工具。未來,團隊計劃進一步整合空間轉錄組與單細胞表觀組數據,構建更高精度的細胞水平SE活動圖譜,持續推動基因調控機製的解析。

 

- - - 推薦閱讀 - - -