Prot2Token : Un cadre unifié pour la modélisation des protéines via la prédiction du prochain jeton
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction
May 26, 2025
Auteurs: Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu
cs.AI
Résumé
La nature diversifiée des tâches de prédiction protéique a traditionnellement nécessité des modèles spécialisés, entravant le développement de modèles de langage protéique (PLM) largement applicables et efficaces sur le plan computationnel. Dans ce travail, nous présentons Prot2Token, un cadre unifié qui surmonte ces défis en convertissant un large éventail de prédictions liées aux protéines, allant des propriétés au niveau de la séquence et des attributs spécifiques aux résidus aux interactions inter-protéiques complexes, en un format standardisé de prédiction du prochain token. Au cœur de Prot2Token se trouve un décodeur autoregressif, conditionné par des embeddings issus d'encodeurs protéiques pré-entraînés et guidé par des tokens de tâches apprenables, pour effectuer des prédictions variées. Cette architecture facilite de manière unique l'apprentissage multitâche, permettant à un seul modèle de maîtriser de nombreuses tâches avec une efficacité accrue. Nous présentons une validation expérimentale approfondie sur une variété de benchmarks, démontrant la forte puissance prédictive de Prot2Token dans différents types de tâches de prédiction protéique. Les résultats clés incluent des accélérations significatives (par exemple, près de 1000x par rapport à AlphaFold2 avec MSA) et des performances souvent égales ou supérieures aux approches spécialisées. Au-delà de cela, nous introduisons une approche de pré-entraînement auto-supervisé du décodeur pour améliorer les performances des tâches sensibles à l'espace. Prot2Token représente ainsi une avancée significative vers un paradigme polyvalent et à haut débit pour la modélisation protéique, promettant d'accélérer les découvertes biologiques et le développement de nouvelles thérapies. Le code est disponible à l'adresse suivante : https://github.com/mahdip72/prot2token.
English
The diverse nature of protein prediction tasks has traditionally necessitated
specialized models, hindering the development of broadly applicable and
computationally efficient Protein Language Models (PLMs). In this work, we
introduce Prot2Token, a unified framework that overcomes these challenges by
converting a wide spectrum of protein-related predictions, from sequence-level
properties and residue-specific attributes to complex inter-protein
interactions, into a standardized next-token prediction format. At its core,
Prot2Token employs an autoregressive decoder, conditioned on embeddings from
pre-trained protein encoders and guided by learnable task tokens, to perform
diverse predictions. This architecture uniquely facilitates multi-task
learning, enabling a single model to master numerous tasks with improved
efficiency. We present extensive experimental validation across a variety of
benchmarks, demonstrating Prot2Tokens strong predictive power in different
types of protein-prediction tasks. Key results include significant speedups
(e.g., near 1000x over AlphaFold2 with MSA) and performance often matching or
exceeding specialized approaches. Beyond that, we introduce an auxiliary
self-supervised decoder pre-training approach to improve spatially sensitive
task performance. Prot2Token thus offers a significant step towards a
versatile, high-throughput paradigm for protein modeling, promising to
accelerate biological discovery and the development of novel therapeutics. The
code is available at https://github.com/mahdip72/prot2token .Summary
AI-Generated Summary