Apprendre à découvrir des éléments régulateurs pour la prédiction de l'expression génique
Learning to Discover Regulatory Elements for Gene Expression Prediction
February 19, 2025
Auteurs: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji
cs.AI
Résumé
Nous examinons le problème de la prédiction de l’expression des gènes à partir de séquences d’ADN. Un défi majeur de cette tâche consiste à identifier les éléments régulateurs qui contrôlent l’expression des gènes. Nous présentons ici Seq2Exp, un réseau de séquence à expression conçu explicitement pour découvrir et extraire les éléments régulateurs qui pilotent l’expression des gènes cibles, améliorant ainsi la précision de la prédiction de l’expression génique. Notre approche capture la relation causale entre les signaux épigénomiques, les séquences d’ADN et leurs éléments régulateurs associés. Plus précisément, nous proposons de décomposer les signaux épigénomiques et la séquence d’ADN en fonction des éléments régulateurs actifs causaux, et d’appliquer un goulot d’étranglement d’information avec la distribution bêta pour combiner leurs effets tout en filtrant les composantes non causales. Nos expériences démontrent que Seq2Exp surpasse les méthodes de référence existantes dans les tâches de prédiction de l’expression génique et identifie des régions influentes par rapport aux méthodes statistiques couramment utilisées pour la détection de pics, telles que MACS3. Le code source est publié dans le cadre de la bibliothèque AIRS (https://github.com/divelab/AIRS/).
English
We consider the problem of predicting gene expressions from DNA sequences. A
key challenge of this task is to find the regulatory elements that control gene
expressions. Here, we introduce Seq2Exp, a Sequence to Expression network
explicitly designed to discover and extract regulatory elements that drive
target gene expression, enhancing the accuracy of the gene expression
prediction. Our approach captures the causal relationship between epigenomic
signals, DNA sequences and their associated regulatory elements. Specifically,
we propose to decompose the epigenomic signals and the DNA sequence conditioned
on the causal active regulatory elements, and apply an information bottleneck
with the Beta distribution to combine their effects while filtering out
non-causal components. Our experiments demonstrate that Seq2Exp outperforms
existing baselines in gene expression prediction tasks and discovers
influential regions compared to commonly used statistical methods for peak
detection such as MACS3. The source code is released as part of the AIRS
library (https://github.com/divelab/AIRS/).Summary
AI-Generated Summary