ChatPaper.aiChatPaper

Caduceus: Bidirektionales äquivariantes Langstrecken-DNA-Sequenzmodellieren

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

March 5, 2024
Autoren: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI

Zusammenfassung

Groß angelegte Sequenzmodellierung hat rasche Fortschritte ausgelöst, die nun auch in die Biologie und Genomik reichen. Die Modellierung genomischer Sequenzen bringt jedoch Herausforderungen mit sich, wie die Notwendigkeit, Wechselwirkungen zwischen weit entfernten Token zu modellieren, die Auswirkungen von aufwärts und abwärts gelegenen Regionen des Genoms und die Reverse-Komplementarität (RC) von DNA. Hier schlagen wir eine Architektur vor, die von diesen Herausforderungen motiviert ist, die auf dem weitreichenden Mamba-Block aufbaut und ihn zu einem BiMamba-Komponenten erweitert, die Bidirektionalität unterstützt, und zu einem MambaDNA-Block, der zusätzlich RC-Äquivarianz unterstützt. Wir verwenden MambaDNA als Grundlage für Caduceus, die erste Familie von RC-äquivarianten bidirektionalen weitreichenden DNA-Sprachmodellen, und wir führen Pre-Training- und Feinabstimmungsstrategien ein, die Caduceus-DNA-Grundmodelle erzeugen. Caduceus übertrifft frühere weitreichende Modelle bei nachgelagerten Benchmarks; bei einer anspruchsvollen Aufgabe zur Vorhersage von Varianteneffekten über große Entfernungen übertrifft Caduceus die Leistung von um das 10-fache größeren Modellen, die keine Bidirektionalität oder Äquivarianz nutzen.
English
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance.
PDF151December 15, 2024