Prot2Token: Ein einheitliches Framework für die Proteinmodellierung durch Next-Token-Vorhersage
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction
May 26, 2025
Autoren: Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu
cs.AI
Zusammenfassung
Die vielfältige Natur von Proteinvorhersageaufgaben hat traditionell spezialisierte Modelle erfordert, was die Entwicklung breit anwendbarer und recheneffizienter Protein-Sprachmodelle (Protein Language Models, PLMs) behindert hat. In dieser Arbeit stellen wir Prot2Token vor, ein einheitliches Framework, das diese Herausforderungen überwindet, indem es ein breites Spektrum proteinbezogener Vorhersagen – von sequenzbasierten Eigenschaften und residuenspezifischen Attributen bis hin zu komplexen Inter-Protein-Interaktionen – in ein standardisiertes Next-Token-Prediction-Format umwandelt. Im Kern verwendet Prot2Token einen autoregressiven Decoder, der auf Einbettungen vortrainierter Protein-Encoder basiert und durch lernbare Aufgaben-Tokens gesteuert wird, um diverse Vorhersagen durchzuführen. Diese Architektur ermöglicht einzigartig Multi-Task-Learning, wodurch ein einziges Modell zahlreiche Aufgaben mit verbesserter Effizienz meistern kann. Wir präsentieren umfangreiche experimentelle Validierungen über eine Vielzahl von Benchmarks hinweg, die die starke Vorhersagekraft von Prot2Token bei verschiedenen Arten von Proteinvorhersageaufgaben demonstrieren. Zu den wichtigsten Ergebnissen gehören signifikante Beschleunigungen (z. B. nahezu 1000x gegenüber AlphaFold2 mit MSA) und eine Leistung, die oft spezialisierte Ansätze erreicht oder übertrifft. Darüber hinaus führen wir einen zusätzlichen selbstüberwachten Decoder-Pre-Training-Ansatz ein, um die Leistung bei räumlich sensiblen Aufgaben zu verbessern. Prot2Token bietet somit einen bedeutenden Schritt hin zu einem vielseitigen, hochdurchsatzfähigen Paradigma für die Proteinmodellierung, das verspricht, die biologische Entdeckung und die Entwicklung neuartiger Therapeutika zu beschleunigen. Der Code ist unter https://github.com/mahdip72/prot2token verfügbar.
English
The diverse nature of protein prediction tasks has traditionally necessitated
specialized models, hindering the development of broadly applicable and
computationally efficient Protein Language Models (PLMs). In this work, we
introduce Prot2Token, a unified framework that overcomes these challenges by
converting a wide spectrum of protein-related predictions, from sequence-level
properties and residue-specific attributes to complex inter-protein
interactions, into a standardized next-token prediction format. At its core,
Prot2Token employs an autoregressive decoder, conditioned on embeddings from
pre-trained protein encoders and guided by learnable task tokens, to perform
diverse predictions. This architecture uniquely facilitates multi-task
learning, enabling a single model to master numerous tasks with improved
efficiency. We present extensive experimental validation across a variety of
benchmarks, demonstrating Prot2Tokens strong predictive power in different
types of protein-prediction tasks. Key results include significant speedups
(e.g., near 1000x over AlphaFold2 with MSA) and performance often matching or
exceeding specialized approaches. Beyond that, we introduce an auxiliary
self-supervised decoder pre-training approach to improve spatially sensitive
task performance. Prot2Token thus offers a significant step towards a
versatile, high-throughput paradigm for protein modeling, promising to
accelerate biological discovery and the development of novel therapeutics. The
code is available at https://github.com/mahdip72/prot2token .Summary
AI-Generated Summary