遺伝子発現予測のための調節因子を発見するための学習
Learning to Discover Regulatory Elements for Gene Expression Prediction
February 19, 2025
著者: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji
cs.AI
要旨
DNA配列から遺伝子発現を予測する問題を考察する。この課題の主要な難点は、遺伝子発現を制御する調節要素を見つけ出すことである。本論文では、Seq2Expを紹介する。これは、標的遺伝子の発現を駆動する調節要素を発見し抽出するために明示的に設計された、配列から発現へのネットワークであり、遺伝子発現予測の精度を向上させる。我々のアプローチは、エピゲノムシグナル、DNA配列、およびそれらに関連する調節要素間の因果関係を捉える。具体的には、因果的に活性化された調節要素に基づいてエピゲノムシグナルとDNA配列を分解し、ベータ分布を用いた情報ボトルネックを適用して、それらの効果を組み合わせつつ非因果的要素を除去する。実験により、Seq2Expが遺伝子発現予測タスクにおいて既存のベースラインを上回り、MACS3などの一般的に使用されるピーク検出の統計手法と比較して影響力のある領域を発見することを示す。ソースコードはAIRSライブラリ(https://github.com/divelab/AIRS/)の一部として公開されている。
English
We consider the problem of predicting gene expressions from DNA sequences. A
key challenge of this task is to find the regulatory elements that control gene
expressions. Here, we introduce Seq2Exp, a Sequence to Expression network
explicitly designed to discover and extract regulatory elements that drive
target gene expression, enhancing the accuracy of the gene expression
prediction. Our approach captures the causal relationship between epigenomic
signals, DNA sequences and their associated regulatory elements. Specifically,
we propose to decompose the epigenomic signals and the DNA sequence conditioned
on the causal active regulatory elements, and apply an information bottleneck
with the Beta distribution to combine their effects while filtering out
non-causal components. Our experiments demonstrate that Seq2Exp outperforms
existing baselines in gene expression prediction tasks and discovers
influential regions compared to commonly used statistical methods for peak
detection such as MACS3. The source code is released as part of the AIRS
library (https://github.com/divelab/AIRS/).Summary
AI-Generated Summary