ChatPaper.aiChatPaper

Caduceus: Modelado Equivariante Bidireccional de Secuencias de ADN de Largo Alcance

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

March 5, 2024
Autores: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI

Resumen

El modelado de secuencias a gran escala ha impulsado avances rápidos que ahora se extienden a la biología y la genómica. Sin embargo, el modelado de secuencias genómicas introduce desafíos como la necesidad de modelar interacciones de tokens de largo alcance, los efectos de las regiones aguas arriba y aguas abajo del genoma, y la complementariedad inversa (RC) del ADN. Aquí, proponemos una arquitectura motivada por estos desafíos que se basa en el bloque Mamba de largo alcance, y lo extiende a un componente BiMamba que admite bidireccionalidad, y a un bloque MambaDNA que además admite equivariancia RC. Utilizamos MambaDNA como base de Caduceus, la primera familia de modelos de lenguaje de ADN de largo alcance bidireccionales y RC-equivariantes, e introducimos estrategias de preentrenamiento y ajuste fino que dan lugar a los modelos fundacionales de ADN Caduceus. Caduceus supera a los modelos anteriores de largo alcance en puntos de referencia posteriores; en una tarea desafiante de predicción de efectos de variantes de largo alcance, Caduceus supera el rendimiento de modelos 10 veces más grandes que no aprovechan la bidireccionalidad o la equivariancia.
English
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance.
PDF151December 15, 2024