ChatPaper.aiChatPaper

Caduceus: Modellazione Bi-Direzionale Equivariante di Sequenze di DNA a Lungo Raggio

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

March 5, 2024
Autori: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI

Abstract

La modellazione su larga scala di sequenze ha stimolato rapidi progressi che ora si estendono alla biologia e alla genomica. Tuttavia, la modellazione di sequenze genomiche introduce sfide come la necessità di modellare interazioni a lungo raggio tra token, gli effetti delle regioni a monte e a valle del genoma e la complementarità inversa (RC) del DNA. Qui proponiamo un'architettura motivata da queste sfide che si basa sul blocco Mamba a lungo raggio, estendendolo a un componente BiMamba che supporta la bidirezionalità, e a un blocco MambaDNA che aggiunge inoltre l'equivarianza RC. Utilizziamo MambaDNA come base per Caduceus, la prima famiglia di modelli linguistici per il DNA a lungo raggio, bidirezionali e RC-equivarianti, e introduciamo strategie di pre-addestramento e fine-tuning che portano ai modelli di fondazione Caduceus per il DNA. Caduceus supera i precedenti modelli a lungo raggio su benchmark downstream; in un compito impegnativo di previsione degli effetti di varianti a lungo raggio, Caduceus supera le prestazioni di modelli 10 volte più grandi che non sfruttano la bidirezionalità o l'equivarianza.
English
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance.
PDF141February 7, 2026