ChatPaper.aiChatPaper

Многомерные био-последовательностные трансформеры большого масштаба для моделирования взаимодействий пептида-нуклеотида.

Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions

August 29, 2024
Авторы: Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann
cs.AI

Аннотация

Архитектура трансформера революционизировала биоинформатику и способствовала прогрессу в понимании и прогнозировании свойств биомолекул. Почти вся исследовательская работа над крупномасштабными био-последовательностными трансформерами сосредоточена на одной области за раз (одно-омная), обычно нуклеотидах или пептидах. Эти модели имели невероятный успех в последующих задачах в каждой области и достигли особенно значительных прорывов в последовательностях пептидов и структурном моделировании. Однако эти одно-омные модели естественным образом не способны моделировать мульти-омные задачи, одной из наиболее биологически важных из которых являются взаимодействия нуклеотид-пептид. Мы представляем нашу работу по обучению первых мульти-омных фундаментальных моделей нуклеотид-пептидов. Мы показываем, что эти мульти-омные модели (MOMs) могут изучать совместные представления между различными одно-омными распределениями, которые внезапно согласуются с Центральной догмой молекулярной биологии, несмотря на то, что они обучены только на неразмеченных био-последовательностях. Мы далее демонстрируем, что MOMs могут быть донастроены для достижения передовых результатов в задачах взаимодействия пептид-нуклеотид, а именно прогнозирования изменения свободной энергии Гиббса ({\Delta}G) взаимодействия связывания между заданным олигонуклеотидом и пептидом, а также влияния на это взаимодействие связывания в результате мутаций в последовательности олигонуклеотида ({\Delta}{\Delta}G). Замечательно, мы показываем, что мульти-омные био-последовательностные трансформеры внезапно изучают полезную структурную информацию без какого-либо предварительного структурного обучения, что позволяет нам предсказывать, какие остатки пептида наиболее участвуют в взаимодействии связывания пептид-нуклеотид. Наконец, мы предоставляем доказательства того, что мульти-омные био-последовательностные модели не уступают фундаментальным моделям, обученным на одно-омных распределениях, что указывает на более обобщенный или фундаментальный подход к построению этих моделей.
English
The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually nucleotides or peptides. These models have seen incredible success in downstream tasks in each domain and have achieved particularly noteworthy breakthroughs in sequences of peptides and structural modeling. However, these single-omic models are naturally incapable of modeling multi-omic tasks, one of the most biologically critical being nucleotide-peptide interactions. We present our work training the first multi-omic nucleotide-peptide foundation models. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology, despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on peptide-nucleotide interaction tasks, namely predicting the change in Gibbs free energy ({\Delta}G) of the binding interaction between a given oligonucleotide and peptide, as well as the effect on this binding interaction due to mutations in the oligonucleotide sequence ({\Delta}{\Delta}G). Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any prior structural training, allowing us to predict which peptide residues are most involved in the peptide-nucleotide binding interaction. Lastly, we provide evidence that multi-omic biosequence models are non-inferior to foundation models trained on single-omics distributions, suggesting a more generalized or foundational approach to building these models.

Summary

AI-Generated Summary

PDF41November 16, 2024