Groß angelegte Multi-omische Biosequenz-Transformer zur Modellierung von Peptid-Nukleotid-Interaktionen.
Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions
August 29, 2024
Autoren: Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann
cs.AI
Zusammenfassung
Die Transformer-Architektur hat die Bioinformatik revolutioniert und den Fortschritt im Verständnis und der Vorhersage der Eigenschaften von Biomolekülen vorangetrieben. Fast alle Forschung zu groß angelegten Biosequenz-Transformern hat sich bisher auf jeweils einen Bereich (einzel-omisch) konzentriert, in der Regel Nukleotide oder Peptide. Diese Modelle haben in jedem Bereich erstaunlichen Erfolg bei nachgelagerten Aufgaben erzielt und insbesondere bemerkenswerte Durchbrüche bei Peptidsequenzen und struktureller Modellierung erzielt. Diese einzel-omischen Modelle sind jedoch naturgemäß nicht in der Lage, multi-omische Aufgaben zu modellieren, wobei eine der biologisch kritischsten die Nukleotid-Peptid-Interaktionen sind.
Wir präsentieren unsere Arbeit zur Schulung der ersten multi-omischen Nukleotid-Peptid-Grundlagenmodelle. Wir zeigen, dass diese multi-omischen Modelle (MOMs) gemeinsame Darstellungen zwischen verschiedenen einzel-omischen Verteilungen lernen können, die aufkommend im Einklang mit dem Zentralen Dogma der Molekularbiologie stehen, obwohl sie nur auf unbeschrifteten Biosequenzen trainiert wurden. Darüber hinaus zeigen wir, dass MOMs feinabgestimmt werden können, um Spitzenleistung bei Peptid-Nukleotid-Interaktionsaufgaben zu erzielen, nämlich die Vorhersage der Änderung der Gibbs'schen freien Energie ({\Delta}G) der Bindungsinteraktion zwischen einem gegebenen Oligonukleotid und Peptid sowie die Auswirkung auf diese Bindungsinteraktion aufgrund von Mutationen in der Oligonukleotidsequenz ({\Delta}{\Delta}G).
Bemerkenswerterweise zeigen wir, dass multi-omische Biosequenz-Transformer aufkommend nützliche strukturelle Informationen lernen, ohne vorheriges strukturelles Training, was es uns ermöglicht vorherzusagen, welche Peptidreste am stärksten an der Peptid-Nukleotid-Bindungsinteraktion beteiligt sind. Schließlich liefern wir Belege dafür, dass multi-omische Biosequenzmodelle nicht unterlegen sind gegenüber Grundlagenmodellen, die auf einzel-omischen Verteilungen trainiert sind, was auf einen allgemeineren oder grundlegenderen Ansatz für den Aufbau dieser Modelle hindeutet.
English
The transformer architecture has revolutionized bioinformatics and driven
progress in the understanding and prediction of the properties of biomolecules.
Almost all research on large-scale biosequence transformers has focused on one
domain at a time (single-omic), usually nucleotides or peptides. These models
have seen incredible success in downstream tasks in each domain and have
achieved particularly noteworthy breakthroughs in sequences of peptides and
structural modeling. However, these single-omic models are naturally incapable
of modeling multi-omic tasks, one of the most biologically critical being
nucleotide-peptide interactions.
We present our work training the first multi-omic nucleotide-peptide
foundation models. We show that these multi-omic models (MOMs) can learn joint
representations between various single-omic distributions that are emergently
consistent with the Central Dogma of molecular biology, despite only being
trained on unlabeled biosequences. We further demonstrate that MOMs can be
fine-tuned to achieve state-of-the-art results on peptide-nucleotide
interaction tasks, namely predicting the change in Gibbs free energy
({\Delta}G) of the binding interaction between a given oligonucleotide and
peptide, as well as the effect on this binding interaction due to mutations in
the oligonucleotide sequence ({\Delta}{\Delta}G).
Remarkably, we show that multi-omic biosequence transformers emergently learn
useful structural information without any prior structural training, allowing
us to predict which peptide residues are most involved in the
peptide-nucleotide binding interaction. Lastly, we provide evidence that
multi-omic biosequence models are non-inferior to foundation models trained on
single-omics distributions, suggesting a more generalized or foundational
approach to building these models.Summary
AI-Generated Summary