ChatPaper.aiChatPaper

유전자 발현 예측을 위한 조절 요소 발견 학습

Learning to Discover Regulatory Elements for Gene Expression Prediction

February 19, 2025
저자: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji
cs.AI

초록

우리는 DNA 서열로부터 유전자 발현을 예측하는 문제를 고려한다. 이 작업의 주요 과제는 유전자 발현을 조절하는 규제 요소를 찾는 것이다. 본 논문에서는 목표 유전자 발현을 주도하는 규제 요소를 발견하고 추출함으로써 유전자 발현 예측의 정확도를 향상시키기 위해 명시적으로 설계된 Seq2Exp(Sequence to Expression 네트워크)를 소개한다. 우리의 접근법은 후성유전학적 신호, DNA 서열 및 이들과 연관된 규제 요소 간의 인과 관계를 포착한다. 구체적으로, 우리는 인과적으로 활성화된 규제 요소를 조건으로 하여 후성유전학적 신호와 DNA 서열을 분해하고, 베타 분포를 적용한 정보 병목 현상을 통해 이들의 효과를 결합하면서 비인과적 요소를 걸러내는 방법을 제안한다. 우리의 실험 결과, Seq2Exp는 유전자 발현 예측 작업에서 기존의 베이스라인을 능가하며, MACS3와 같은 일반적으로 사용되는 통계적 방법에 비해 영향력 있는 영역을 발견한다. 소스 코드는 AIRS 라이브러리(https://github.com/divelab/AIRS/)의 일부로 공개되었다.
English
We consider the problem of predicting gene expressions from DNA sequences. A key challenge of this task is to find the regulatory elements that control gene expressions. Here, we introduce Seq2Exp, a Sequence to Expression network explicitly designed to discover and extract regulatory elements that drive target gene expression, enhancing the accuracy of the gene expression prediction. Our approach captures the causal relationship between epigenomic signals, DNA sequences and their associated regulatory elements. Specifically, we propose to decompose the epigenomic signals and the DNA sequence conditioned on the causal active regulatory elements, and apply an information bottleneck with the Beta distribution to combine their effects while filtering out non-causal components. Our experiments demonstrate that Seq2Exp outperforms existing baselines in gene expression prediction tasks and discovers influential regions compared to commonly used statistical methods for peak detection such as MACS3. The source code is released as part of the AIRS library (https://github.com/divelab/AIRS/).

Summary

AI-Generated Summary

PDF22February 24, 2025