ChatPaper.aiChatPaper

Caduceus: Bi-directionele equivariante langeafstandsmodellering van DNA-sequenties

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

March 5, 2024
Auteurs: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI

Samenvatting

Grootschalige sequentiemodellering heeft een snelle vooruitgang teweeggebracht die zich nu uitstrekt tot biologie en genomica. Het modelleren van genomische sequenties brengt echter uitdagingen met zich mee, zoals de noodzaak om langetermijninteracties tussen tokens te modelleren, de effecten van upstream- en downstream-regio's van het genoom, en de reverse complementariteit (RC) van DNA. Hier stellen we een architectuur voor die geïnspireerd is door deze uitdagingen en voortbouwt op het long-range Mamba-blok, en deze uitbreidt naar een BiMamba-component die bidirectionaliteit ondersteunt, en naar een MambaDNA-blok dat bovendien RC-equivariantie ondersteunt. We gebruiken MambaDNA als basis voor Caduceus, de eerste familie van RC-equivariante bidirectionele long-range DNA-taalmodelen, en we introduceren pre-training en fine-tuning strategieën die leiden tot Caduceus DNA foundation-modellen. Caduceus overtreft eerdere long-range modellen op downstream benchmarks; op een uitdagende long-range variant effect voorspellingstaak presteert Caduceus beter dan 10x grotere modellen die geen gebruik maken van bidirectionaliteit of equivariantie.
English
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance.
PDF141February 7, 2026