Prot2Token: Un Framework Unificato per la Modellazione Proteica tramite Predizione del Token Successivo
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction
May 26, 2025
Autori: Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu
cs.AI
Abstract
La natura diversificata dei compiti di previsione proteica ha tradizionalmente richiesto
modelli specializzati, ostacolando lo sviluppo di Modelli Linguistici Proteici (PLM)
ampiamente applicabili e computazionalmente efficienti. In questo lavoro, introduciamo
Prot2Token, un framework unificato che supera queste sfide convertendo un'ampia gamma
di previsioni relative alle proteine, dalle proprietà a livello di sequenza e attributi
specifici dei residui alle complesse interazioni inter-proteiche, in un formato standardizzato
di previsione del token successivo. Al suo nucleo, Prot2Token utilizza un decoder
autoregressivo, condizionato su embedding da encoder proteici pre-addestrati e guidato
da token di compito apprendibili, per eseguire previsioni diversificate. Questa architettura
facilita in modo unico l'apprendimento multi-task, consentendo a un singolo modello di
padroneggiare numerosi compiti con una maggiore efficienza. Presentiamo una vasta
validazione sperimentale su una varietà di benchmark, dimostrando la forte capacità
predittiva di Prot2Token in diversi tipi di compiti di previsione proteica. I risultati chiave
includono significativi miglioramenti in termini di velocità (ad esempio, quasi 1000x rispetto
ad AlphaFold2 con MSA) e prestazioni che spesso eguagliano o superano approcci
specializzati. Oltre a ciò, introduciamo un approccio ausiliario di pre-addestramento
self-supervised del decoder per migliorare le prestazioni nei compiti sensibili alla
spazialità. Prot2Token rappresenta quindi un passo significativo verso un paradigma
versatile e ad alto rendimento per la modellazione proteica, promettendo di accelerare la
scoperta biologica e lo sviluppo di nuove terapie. Il codice è disponibile all'indirizzo
https://github.com/mahdip72/prot2token.
English
The diverse nature of protein prediction tasks has traditionally necessitated
specialized models, hindering the development of broadly applicable and
computationally efficient Protein Language Models (PLMs). In this work, we
introduce Prot2Token, a unified framework that overcomes these challenges by
converting a wide spectrum of protein-related predictions, from sequence-level
properties and residue-specific attributes to complex inter-protein
interactions, into a standardized next-token prediction format. At its core,
Prot2Token employs an autoregressive decoder, conditioned on embeddings from
pre-trained protein encoders and guided by learnable task tokens, to perform
diverse predictions. This architecture uniquely facilitates multi-task
learning, enabling a single model to master numerous tasks with improved
efficiency. We present extensive experimental validation across a variety of
benchmarks, demonstrating Prot2Tokens strong predictive power in different
types of protein-prediction tasks. Key results include significant speedups
(e.g., near 1000x over AlphaFold2 with MSA) and performance often matching or
exceeding specialized approaches. Beyond that, we introduce an auxiliary
self-supervised decoder pre-training approach to improve spatially sensitive
task performance. Prot2Token thus offers a significant step towards a
versatile, high-throughput paradigm for protein modeling, promising to
accelerate biological discovery and the development of novel therapeutics. The
code is available at https://github.com/mahdip72/prot2token .