ChatPaper.aiChatPaper

Caduceus: 双方向等変長距離DNA配列モデリング

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

March 5, 2024
著者: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI

要旨

大規模なシーケンスモデリングは、生物学やゲノミクス分野にまで急速に進展を遂げています。しかし、ゲノム配列のモデリングには、長距離のトークン間相互作用のモデリング、ゲノムの上流・下流領域の影響、そしてDNAの逆相補性(RC)といった課題が伴います。本論文では、これらの課題を踏まえ、長距離Mambaブロックを基盤とし、双方向性をサポートするBiMambaコンポーネント、さらにRC等価性をサポートするMambaDNAブロックへと拡張したアーキテクチャを提案します。MambaDNAを基盤として、RC等価性を備えた双方向長距離DNA言語モデルファミリーであるCaduceusを初めて開発し、Caduceus DNA基盤モデルを構築するための事前学習とファインチューニング戦略を導入します。Caduceusは、下流ベンチマークにおいて従来の長距離モデルを上回り、特に挑戦的な長距離バリアント効果予測タスクでは、双方向性や等価性を活用しない10倍規模のモデルを凌駕する性能を示します。
English
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance.
PDF151December 15, 2024