Prot2Token: Een Geïntegreerd Framework voor Eiwitmodellering via Next-Token Voorspelling
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction
May 26, 2025
Auteurs: Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu
cs.AI
Samenvatting
De diverse aard van eiwitvoorspellingstaken heeft traditioneel gespecialiseerde modellen vereist, wat de ontwikkeling van breed toepasbare en computationeel efficiënte Protein Language Models (PLMs) heeft belemmerd. In dit werk introduceren we Prot2Token, een uniform raamwerk dat deze uitdagingen overwint door een breed scala aan eiwitgerelateerde voorspellingen, van sequentieniveau-eigenschappen en residu-specifieke attributen tot complexe inter-eiwitinteracties, om te zetten in een gestandaardiseerd next-token voorspellingsformaat. In de kern maakt Prot2Token gebruik van een autoregressieve decoder, die wordt geconditioneerd op embeddings van vooraf getrainde eiwitencoders en wordt geleid door leerbare taaktokens, om diverse voorspellingen uit te voeren. Deze architectuur vergemakkelijkt uniek multi-task leren, waardoor een enkel model talrijke taken kan beheersen met verbeterde efficiëntie. We presenteren uitgebreide experimentele validatie over een verscheidenheid aan benchmarks, die de sterke voorspellende kracht van Prot2Token in verschillende soorten eiwitvoorspellingstaken aantoont. Belangrijke resultaten omvatten aanzienlijke snelheidswinsten (bijvoorbeeld bijna 1000x ten opzichte van AlphaFold2 met MSA) en prestaties die vaak gespecialiseerde benaderingen evenaren of overtreffen. Daarnaast introduceren we een aanvullende zelfsupervised decoder pre-trainingsaanpak om de prestaties van ruimtelijk gevoelige taken te verbeteren. Prot2Token biedt zo een significante stap richting een veelzijdig, hoogdoorvoerparadigma voor eiwitmodellering, dat belooft biologische ontdekkingen en de ontwikkeling van nieuwe therapeutica te versnellen. De code is beschikbaar op https://github.com/mahdip72/prot2token.
English
The diverse nature of protein prediction tasks has traditionally necessitated
specialized models, hindering the development of broadly applicable and
computationally efficient Protein Language Models (PLMs). In this work, we
introduce Prot2Token, a unified framework that overcomes these challenges by
converting a wide spectrum of protein-related predictions, from sequence-level
properties and residue-specific attributes to complex inter-protein
interactions, into a standardized next-token prediction format. At its core,
Prot2Token employs an autoregressive decoder, conditioned on embeddings from
pre-trained protein encoders and guided by learnable task tokens, to perform
diverse predictions. This architecture uniquely facilitates multi-task
learning, enabling a single model to master numerous tasks with improved
efficiency. We present extensive experimental validation across a variety of
benchmarks, demonstrating Prot2Tokens strong predictive power in different
types of protein-prediction tasks. Key results include significant speedups
(e.g., near 1000x over AlphaFold2 with MSA) and performance often matching or
exceeding specialized approaches. Beyond that, we introduce an auxiliary
self-supervised decoder pre-training approach to improve spatially sensitive
task performance. Prot2Token thus offers a significant step towards a
versatile, high-throughput paradigm for protein modeling, promising to
accelerate biological discovery and the development of novel therapeutics. The
code is available at https://github.com/mahdip72/prot2token .