Обучение поиску регуляторных элементов для предсказания экспрессии генов
Learning to Discover Regulatory Elements for Gene Expression Prediction
February 19, 2025
Авторы: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji
cs.AI
Аннотация
Мы рассматриваем проблему прогнозирования экспрессии генов по последовательностям ДНК. Одним из ключевых вызовов этой задачи является поиск регуляторных элементов, контролирующих экспрессию генов. Здесь мы представляем Seq2Exp, сеть от последовательности к экспрессии, специально разработанную для обнаружения и извлечения регуляторных элементов, управляющих экспрессией целевого гена, что повышает точность прогнозирования экспрессии гена. Наш подход захватывает причинно-следственные связи между эпигеномными сигналами, последовательностями ДНК и связанными с ними регуляторными элементами. Конкретно, мы предлагаем декомпозировать эпигеномные сигналы и последовательность ДНК при условии причинно активных регуляторных элементов и применить информационный узкий место с бета-распределением для объединения их влияния и фильтрации не-причинных компонентов. Наши эксперименты показывают, что Seq2Exp превосходит существующие базовые уровни в задачах прогнозирования экспрессии гена и обнаруживает влиятельные области по сравнению с широко используемыми статистическими методами для обнаружения пиков, такими как MACS3. Исходный код выпущен в рамках библиотеки AIRS (https://github.com/divelab/AIRS/).
English
We consider the problem of predicting gene expressions from DNA sequences. A
key challenge of this task is to find the regulatory elements that control gene
expressions. Here, we introduce Seq2Exp, a Sequence to Expression network
explicitly designed to discover and extract regulatory elements that drive
target gene expression, enhancing the accuracy of the gene expression
prediction. Our approach captures the causal relationship between epigenomic
signals, DNA sequences and their associated regulatory elements. Specifically,
we propose to decompose the epigenomic signals and the DNA sequence conditioned
on the causal active regulatory elements, and apply an information bottleneck
with the Beta distribution to combine their effects while filtering out
non-causal components. Our experiments demonstrate that Seq2Exp outperforms
existing baselines in gene expression prediction tasks and discovers
influential regions compared to commonly used statistical methods for peak
detection such as MACS3. The source code is released as part of the AIRS
library (https://github.com/divelab/AIRS/).Summary
AI-Generated Summary