Transformateurs bio-séquentiels multi-omiques à grande échelle pour modéliser les interactions peptide-nucléotide
Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions
August 29, 2024
Auteurs: Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann
cs.AI
Résumé
L'architecture transformer a révolutionné la bioinformatique et a stimulé les progrès dans la compréhension et la prédiction des propriétés des biomolécules. Presque toutes les recherches sur les transformateurs de bioséquences à grande échelle se sont concentrées sur un domaine à la fois (mono-omique), généralement les nucléotides ou les peptides. Ces modèles ont connu un succès incroyable dans les tâches ultérieures de chaque domaine et ont réalisé des percées particulièrement remarquables dans les séquences de peptides et la modélisation structurale. Cependant, ces modèles mono-omiques sont naturellement incapables de modéliser des tâches multi-omiques, l'une des plus critiques sur le plan biologique étant les interactions nucléotide-peptide.
Nous présentons notre travail sur la formation des premiers modèles fondamentaux multi-omiques nucléotide-peptide. Nous montrons que ces modèles multi-omiques (MOMs) peuvent apprendre des représentations conjointes entre diverses distributions mono-omiques qui sont émergentes et cohérentes avec le Dogme Central de la biologie moléculaire, malgré le fait d'être uniquement formés sur des bioséquences non étiquetées. Nous démontrons en outre que les MOMs peuvent être affinés pour atteindre des résultats de pointe sur les tâches d'interaction peptide-nucléotide, notamment la prédiction du changement d'énergie libre de Gibbs ({\Delta}G) de l'interaction de liaison entre un oligonucléotide donné et un peptide, ainsi que l'effet sur cette interaction de liaison dû aux mutations dans la séquence de l'oligonucléotide ({\Delta}{\Delta}G).
De manière remarquable, nous montrons que les transformateurs de bioséquences multi-omiques apprennent de manière émergente des informations structurales utiles sans aucune formation structurale préalable, ce qui nous permet de prédire quels résidus de peptide sont les plus impliqués dans l'interaction de liaison peptide-nucléotide. Enfin, nous apportons des preuves que les modèles de bioséquences multi-omiques ne sont pas inférieurs aux modèles fondamentaux formés sur des distributions mono-omiques, suggérant une approche plus généralisée ou fondamentale pour la construction de ces modèles.
English
The transformer architecture has revolutionized bioinformatics and driven
progress in the understanding and prediction of the properties of biomolecules.
Almost all research on large-scale biosequence transformers has focused on one
domain at a time (single-omic), usually nucleotides or peptides. These models
have seen incredible success in downstream tasks in each domain and have
achieved particularly noteworthy breakthroughs in sequences of peptides and
structural modeling. However, these single-omic models are naturally incapable
of modeling multi-omic tasks, one of the most biologically critical being
nucleotide-peptide interactions.
We present our work training the first multi-omic nucleotide-peptide
foundation models. We show that these multi-omic models (MOMs) can learn joint
representations between various single-omic distributions that are emergently
consistent with the Central Dogma of molecular biology, despite only being
trained on unlabeled biosequences. We further demonstrate that MOMs can be
fine-tuned to achieve state-of-the-art results on peptide-nucleotide
interaction tasks, namely predicting the change in Gibbs free energy
({\Delta}G) of the binding interaction between a given oligonucleotide and
peptide, as well as the effect on this binding interaction due to mutations in
the oligonucleotide sequence ({\Delta}{\Delta}G).
Remarkably, we show that multi-omic biosequence transformers emergently learn
useful structural information without any prior structural training, allowing
us to predict which peptide residues are most involved in the
peptide-nucleotide binding interaction. Lastly, we provide evidence that
multi-omic biosequence models are non-inferior to foundation models trained on
single-omics distributions, suggesting a more generalized or foundational
approach to building these models.Summary
AI-Generated Summary