Кадуке́й: Двунаправленное эквивариантное моделирование длинных ДНК-последовательностей.
Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling
March 5, 2024
Авторы: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI
Аннотация
Моделирование последовательностей большого масштаба вызвало быстрый прогресс, который теперь распространяется на биологию и геномику. Однако моделирование геномных последовательностей вводит вызовы, такие как необходимость моделировать взаимодействия токенов на дальние расстояния, эффекты упстримовых и нисходящих регионов генома, а также обратную комплементарность (RC) ДНК. Здесь мы предлагаем архитектуру, мотивированную этими вызовами, которая основана на блоке Mamba для дальних взаимодействий и расширяет его до компонента BiMamba, поддерживающего двунаправленность, а также до блока MambaDNA, который дополнительно поддерживает RC эквивариантность. Мы используем MambaDNA в качестве основы Caduceus, первой семьи RC-эквивариантных двунаправленных моделей длинных ДНК-последовательностей, и представляем стратегии предварительного обучения и дообучения, которые приводят к созданию базовых моделей Caduceus DNA. Caduceus превосходит предыдущие модели длинных диапазонов на последующих бенчмарках; на сложной задаче предсказания эффектов вариантов на длинных расстояниях Caduceus превосходит производительность моделей в 10 раз больших, которые не используют двунаправленность или эквивариантность.
English
Large-scale sequence modeling has sparked rapid advances that now extend into
biology and genomics. However, modeling genomic sequences introduces challenges
such as the need to model long-range token interactions, the effects of
upstream and downstream regions of the genome, and the reverse complementarity
(RC) of DNA. Here, we propose an architecture motivated by these challenges
that builds off the long-range Mamba block, and extends it to a BiMamba
component that supports bi-directionality, and to a MambaDNA block that
additionally supports RC equivariance. We use MambaDNA as the basis of
Caduceus, the first family of RC equivariant bi-directional long-range DNA
language models, and we introduce pre-training and fine-tuning strategies that
yield Caduceus DNA foundation models. Caduceus outperforms previous long-range
models on downstream benchmarks; on a challenging long-range variant effect
prediction task, Caduceus exceeds the performance of 10x larger models that do
not leverage bi-directionality or equivariance.