Caduceus: Modelagem Equivariante Bidirecional de Sequências de DNA de Longo Alcance
Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling
March 5, 2024
Autores: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI
Resumo
A modelagem de sequências em grande escala tem impulsionado avanços rápidos que agora se estendem para a biologia e genômica. No entanto, a modelagem de sequências genômicas introduz desafios, como a necessidade de modelar interações de longo alcance entre tokens, os efeitos das regiões a montante e a jusante do genoma, e a complementaridade reversa (RC) do DNA. Aqui, propomos uma arquitetura motivada por esses desafios que se baseia no bloco Mamba de longo alcance, e o estende para um componente BiMamba que suporta bidirecionalidade, e para um bloco MambaDNA que adicionalmente suporta equivariância RC. Usamos o MambaDNA como base para o Caduceus, a primeira família de modelos de linguagem de DNA bidirecionais de longo alcance com equivariância RC, e introduzimos estratégias de pré-treinamento e ajuste fino que resultam em modelos de fundação Caduceus DNA. O Caduceus supera modelos anteriores de longo alcance em benchmarks de tarefas subsequentes; em uma tarefa desafiadora de predição de efeito de variantes de longo alcance, o Caduceus excede o desempenho de modelos 10 vezes maiores que não aproveitam a bidirecionalidade ou a equivariância.
English
Large-scale sequence modeling has sparked rapid advances that now extend into
biology and genomics. However, modeling genomic sequences introduces challenges
such as the need to model long-range token interactions, the effects of
upstream and downstream regions of the genome, and the reverse complementarity
(RC) of DNA. Here, we propose an architecture motivated by these challenges
that builds off the long-range Mamba block, and extends it to a BiMamba
component that supports bi-directionality, and to a MambaDNA block that
additionally supports RC equivariance. We use MambaDNA as the basis of
Caduceus, the first family of RC equivariant bi-directional long-range DNA
language models, and we introduce pre-training and fine-tuning strategies that
yield Caduceus DNA foundation models. Caduceus outperforms previous long-range
models on downstream benchmarks; on a challenging long-range variant effect
prediction task, Caduceus exceeds the performance of 10x larger models that do
not leverage bi-directionality or equivariance.