펩타이드-뉴클레오타이드 상호작용을 모델링하기 위한 대규모 다중-오믹 바이오시퀀스 트랜스포머
Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions
August 29, 2024
저자: Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann
cs.AI
초록
Transformer 아키텍처는 생물정보학을 혁신하고 생체분자의 특성을 이해하고 예측하는 진전을 이끌어냈습니다. 대부분의 대규모 생물서열 transformer에 대한 연구는 한 번에 한 도메인(단일-오믹)에 집중되어 왔으며, 일반적으로 염기 또는 펩타이드입니다. 이러한 모델들은 각 도메인의 하류 작업에서 놀라운 성공을 거두었으며, 특히 펩타이드 서열 및 구조 모델링에서 주목할만한 진전을 이루었습니다. 그러나 이러한 단일-오믹 모델들은 자연스럽게 다중-오믹 작업을 모델링하는 데 적합하지 않으며, 그 중에서도 가장 생물학적으로 중요한 핵산-펩타이드 상호작용이 그 중 하나입니다.
저희는 첫 번째 다중-오믹 핵산-펩타이드 기반 모델을 훈련하는 작업을 제시합니다. 이 다중-오믹 모델(MOMs)은 레이블이 없는 생물서열에만 훈련되었음에도 분자생물학의 중심 독설과 일관성을 갖는 다양한 단일-오믹 분포 간의 공동 표현을 학습할 수 있다는 것을 보여줍니다. 더 나아가 MOMs가 펩타이드-핵산 상호작용 작업에서 최첨단 결과를 달성하기 위해 세밀하게 조정될 수 있음을 입증합니다. 즉, 주어진 올리고뉴클레오티드와 펩타이드 간 결합 상호작용의 Gibbs 자유 에너지 변화({\Delta}G) 및 올리고뉴클레오티드 서열의 돌연변이로 인한 이 결합 상호작용에 대한 영향({\Delta}{\Delta}G)을 예측하는 것입니다.
놀랍게도, 우리는 다중-오믹 생물서열 transformer가 어떠한 사전 구조적 훈련도 없이 유용한 구조 정보를 도출하며, 펩타이드-핵산 결합 상호작용에서 어떤 펩타이드 잔기가 가장 관련되어 있는지 예측할 수 있음을 보여줍니다. 마지막으로, 다중-오믹 생물서열 모델이 단일-오믹 분포에 훈련된 기반 모델에 뒤지지 않음을 입증하며, 이는 이러한 모델을 구축하는 보다 일반화된 또는 기본적인 접근법을 시사합니다.
English
The transformer architecture has revolutionized bioinformatics and driven
progress in the understanding and prediction of the properties of biomolecules.
Almost all research on large-scale biosequence transformers has focused on one
domain at a time (single-omic), usually nucleotides or peptides. These models
have seen incredible success in downstream tasks in each domain and have
achieved particularly noteworthy breakthroughs in sequences of peptides and
structural modeling. However, these single-omic models are naturally incapable
of modeling multi-omic tasks, one of the most biologically critical being
nucleotide-peptide interactions.
We present our work training the first multi-omic nucleotide-peptide
foundation models. We show that these multi-omic models (MOMs) can learn joint
representations between various single-omic distributions that are emergently
consistent with the Central Dogma of molecular biology, despite only being
trained on unlabeled biosequences. We further demonstrate that MOMs can be
fine-tuned to achieve state-of-the-art results on peptide-nucleotide
interaction tasks, namely predicting the change in Gibbs free energy
({\Delta}G) of the binding interaction between a given oligonucleotide and
peptide, as well as the effect on this binding interaction due to mutations in
the oligonucleotide sequence ({\Delta}{\Delta}G).
Remarkably, we show that multi-omic biosequence transformers emergently learn
useful structural information without any prior structural training, allowing
us to predict which peptide residues are most involved in the
peptide-nucleotide binding interaction. Lastly, we provide evidence that
multi-omic biosequence models are non-inferior to foundation models trained on
single-omics distributions, suggesting a more generalized or foundational
approach to building these models.Summary
AI-Generated Summary