Caduceus: 양방향 등변성 장거리 DNA 시퀀스 모델링
Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling
March 5, 2024
저자: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI
초록
대규모 시퀀스 모델링은 생물학 및 유전체학 분야로 빠르게 확장되며 급속한 발전을 이끌고 있습니다. 그러나 유전체 시퀀스를 모델링할 때는 장거리 토큰 상호작용, 유전체의 상류 및 하류 영역의 영향, 그리고 DNA의 역상보성(RC)과 같은 문제를 해결해야 합니다. 본 연구에서는 이러한 문제를 해결하기 위해 장거리 Mamba 블록을 기반으로 한 아키텍처를 제안합니다. 이 아키텍처는 양방향성을 지원하는 BiMamba 컴포넌트와 RC 등변성을 추가로 지원하는 MambaDNA 블록으로 확장됩니다. 우리는 MambaDNA를 Caduceus의 기반으로 사용하며, Caduceus는 RC 등변성을 갖춘 양방향 장거리 DNA 언어 모델의 첫 번째 패밀리입니다. 또한, Caduceus DNA 파운데이션 모델을 위한 사전 학습 및 미세 조정 전략을 소개합니다. Caduceus는 다운스트림 벤치마크에서 기존의 장거리 모델을 능가하며, 특히 도전적인 장거리 변이 효과 예측 작업에서 양방향성이나 등변성을 활용하지 않는 10배 더 큰 모델의 성능을 뛰어넘습니다.
English
Large-scale sequence modeling has sparked rapid advances that now extend into
biology and genomics. However, modeling genomic sequences introduces challenges
such as the need to model long-range token interactions, the effects of
upstream and downstream regions of the genome, and the reverse complementarity
(RC) of DNA. Here, we propose an architecture motivated by these challenges
that builds off the long-range Mamba block, and extends it to a BiMamba
component that supports bi-directionality, and to a MambaDNA block that
additionally supports RC equivariance. We use MambaDNA as the basis of
Caduceus, the first family of RC equivariant bi-directional long-range DNA
language models, and we introduce pre-training and fine-tuning strategies that
yield Caduceus DNA foundation models. Caduceus outperforms previous long-range
models on downstream benchmarks; on a challenging long-range variant effect
prediction task, Caduceus exceeds the performance of 10x larger models that do
not leverage bi-directionality or equivariance.