ChatPaper.aiChatPaper

Caduceus : Modélisation équivariante bidirectionnelle de séquences d'ADN à longue portée

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

March 5, 2024
Auteurs: Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov
cs.AI

Résumé

La modélisation à grande échelle de séquences a suscité des avancées rapides qui s'étendent désormais à la biologie et à la génomique. Cependant, la modélisation des séquences génomiques introduit des défis tels que la nécessité de modéliser les interactions à longue portée entre tokens, les effets des régions amont et aval du génome, ainsi que la complémentarité inverse (RC) de l'ADN. Nous proposons ici une architecture inspirée par ces défis, qui s'appuie sur le bloc Mamba à longue portée et l'étend à un composant BiMamba prenant en charge la bidirectionnalité, ainsi qu'à un bloc MambaDNA qui intègre en plus l'équivariance RC. Nous utilisons MambaDNA comme base pour Caduceus, la première famille de modèles de langage ADN bidirectionnels à longue portée équivariants RC, et nous introduisons des stratégies de pré-entraînement et de fine-tuning qui produisent des modèles fondateurs ADN Caduceus. Caduceus surpasse les modèles à longue portée précédents sur des benchmarks en aval ; sur une tâche prédictive d'effet de variante à longue portée particulièrement difficile, Caduceus dépasse les performances de modèles 10 fois plus grands qui n'exploitent ni la bidirectionnalité ni l'équivariance.
English
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance.
PDF151December 15, 2024