Aprendizaje para Descubrir Elementos Reguladores para la Predicción de la Expresión Génica
Learning to Discover Regulatory Elements for Gene Expression Prediction
February 19, 2025
Autores: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji
cs.AI
Resumen
Consideramos el problema de predecir la expresión génica a partir de secuencias de ADN. Un desafío clave de esta tarea es identificar los elementos reguladores que controlan la expresión génica. Aquí, presentamos Seq2Exp, una red de Secuencia a Expresión diseñada explícitamente para descubrir y extraer elementos reguladores que impulsan la expresión génica objetivo, mejorando la precisión de la predicción de la expresión génica. Nuestro enfoque captura la relación causal entre las señales epigenómicas, las secuencias de ADN y sus elementos reguladores asociados. Específicamente, proponemos descomponer las señales epigenómicas y la secuencia de ADN condicionadas a los elementos reguladores activos causales, y aplicamos un cuello de botella de información con la distribución Beta para combinar sus efectos mientras filtramos los componentes no causales. Nuestros experimentos demuestran que Seq2Exp supera a los métodos de referencia existentes en tareas de predicción de expresión génica y descubre regiones influyentes en comparación con métodos estadísticos comúnmente utilizados para la detección de picos, como MACS3. El código fuente se ha publicado como parte de la biblioteca AIRS (https://github.com/divelab/AIRS/).
English
We consider the problem of predicting gene expressions from DNA sequences. A
key challenge of this task is to find the regulatory elements that control gene
expressions. Here, we introduce Seq2Exp, a Sequence to Expression network
explicitly designed to discover and extract regulatory elements that drive
target gene expression, enhancing the accuracy of the gene expression
prediction. Our approach captures the causal relationship between epigenomic
signals, DNA sequences and their associated regulatory elements. Specifically,
we propose to decompose the epigenomic signals and the DNA sequence conditioned
on the causal active regulatory elements, and apply an information bottleneck
with the Beta distribution to combine their effects while filtering out
non-causal components. Our experiments demonstrate that Seq2Exp outperforms
existing baselines in gene expression prediction tasks and discovers
influential regions compared to commonly used statistical methods for peak
detection such as MACS3. The source code is released as part of the AIRS
library (https://github.com/divelab/AIRS/).Summary
AI-Generated Summary