ChatPaper.aiChatPaper

Transformadores Biosequenciais Multi-ômicos em Grande Escala para Modelar Interações Peptídeo-Nucleotídeo

Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions

August 29, 2024
Autores: Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann
cs.AI

Resumo

A arquitetura transformer revolucionou a bioinformática e impulsionou o progresso na compreensão e previsão das propriedades de biomoléculas. Quase toda a pesquisa em transformers de biosequências em larga escala tem se concentrado em um domínio por vez (único-ômico), geralmente nucleotídeos ou peptídeos. Esses modelos têm obtido um sucesso incrível em tarefas subsequentes em cada domínio e alcançaram avanços particularmente notáveis em sequências de peptídeos e modelagem estrutural. No entanto, esses modelos único-ômicos são naturalmente incapazes de modelar tarefas multi-ômicas, sendo uma das mais criticamente biológicas a interação nucleotídeo-peptídeo. Apresentamos nosso trabalho no treinamento dos primeiros modelos fundamentais multi-ômicos nucleotídeo-peptídeo. Mostramos que esses modelos multi-ômicos (MOMs) podem aprender representações conjuntas entre várias distribuições único-ômicas que emergem consistentes com o Dogma Central da biologia molecular, apesar de serem treinados apenas em biosequências não rotuladas. Demonstramos ainda que os MOMs podem ser ajustados finamente para alcançar resultados de ponta em tarefas de interação peptídeo-nucleotídeo, especificamente na previsão da mudança na energia livre de Gibbs ({\Delta}G) da interação de ligação entre um oligonucleotídeo dado e um peptídeo, bem como o efeito dessa interação de ligação devido a mutações na sequência do oligonucleotídeo ({\Delta}{\Delta}G). De forma notável, mostramos que os transformers de biosequências multi-ômicos aprendem emergentemente informações estruturais úteis sem nenhum treinamento estrutural prévio, permitindo-nos prever quais resíduos de peptídeo estão mais envolvidos na interação de ligação peptídeo-nucleotídeo. Por fim, fornecemos evidências de que os modelos de biosequências multi-ômicos não são inferiores aos modelos fundamentais treinados em distribuições único-ômicas, sugerindo uma abordagem mais generalizada ou fundamental para a construção desses modelos.
English
The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually nucleotides or peptides. These models have seen incredible success in downstream tasks in each domain and have achieved particularly noteworthy breakthroughs in sequences of peptides and structural modeling. However, these single-omic models are naturally incapable of modeling multi-omic tasks, one of the most biologically critical being nucleotide-peptide interactions. We present our work training the first multi-omic nucleotide-peptide foundation models. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology, despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on peptide-nucleotide interaction tasks, namely predicting the change in Gibbs free energy ({\Delta}G) of the binding interaction between a given oligonucleotide and peptide, as well as the effect on this binding interaction due to mutations in the oligonucleotide sequence ({\Delta}{\Delta}G). Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any prior structural training, allowing us to predict which peptide residues are most involved in the peptide-nucleotide binding interaction. Lastly, we provide evidence that multi-omic biosequence models are non-inferior to foundation models trained on single-omics distributions, suggesting a more generalized or foundational approach to building these models.
PDF41November 16, 2024