Prot2Token: Um Framework Unificado para Modelagem de Proteínas via Predição do Próximo Token
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction
May 26, 2025
Autores: Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu
cs.AI
Resumo
A natureza diversificada das tarefas de predição de proteínas tradicionalmente exigiu modelos especializados, dificultando o desenvolvimento de Modelos de Linguagem de Proteínas (PLMs) amplamente aplicáveis e computacionalmente eficientes. Neste trabalho, introduzimos o Prot2Token, uma estrutura unificada que supera esses desafios ao converter um amplo espectro de predições relacionadas a proteínas, desde propriedades em nível de sequência e atributos específicos de resíduos até interações interproteicas complexas, em um formato padronizado de predição do próximo token. No cerne do Prot2Token, um decodificador autorregressivo é empregado, condicionado a embeddings de codificadores de proteínas pré-treinados e guiado por tokens de tarefas aprendíveis, para realizar predições diversas. Essa arquitetura facilita exclusivamente o aprendizado multitarefa, permitindo que um único modelo domine diversas tarefas com eficiência aprimorada. Apresentamos uma validação experimental extensa em vários benchmarks, demonstrando o forte poder preditivo do Prot2Token em diferentes tipos de tarefas de predição de proteínas. Entre os principais resultados estão acelerações significativas (por exemplo, quase 1000x em relação ao AlphaFold2 com MSA) e desempenho que frequentemente iguala ou supera abordagens especializadas. Além disso, introduzimos uma abordagem auxiliar de pré-treinamento de decodificador auto-supervisionado para melhorar o desempenho em tarefas espacialmente sensíveis. O Prot2Token, portanto, representa um passo significativo em direção a um paradigma versátil e de alto rendimento para a modelagem de proteínas, prometendo acelerar a descoberta biológica e o desenvolvimento de novas terapias. O código está disponível em https://github.com/mahdip72/prot2token.
English
The diverse nature of protein prediction tasks has traditionally necessitated
specialized models, hindering the development of broadly applicable and
computationally efficient Protein Language Models (PLMs). In this work, we
introduce Prot2Token, a unified framework that overcomes these challenges by
converting a wide spectrum of protein-related predictions, from sequence-level
properties and residue-specific attributes to complex inter-protein
interactions, into a standardized next-token prediction format. At its core,
Prot2Token employs an autoregressive decoder, conditioned on embeddings from
pre-trained protein encoders and guided by learnable task tokens, to perform
diverse predictions. This architecture uniquely facilitates multi-task
learning, enabling a single model to master numerous tasks with improved
efficiency. We present extensive experimental validation across a variety of
benchmarks, demonstrating Prot2Tokens strong predictive power in different
types of protein-prediction tasks. Key results include significant speedups
(e.g., near 1000x over AlphaFold2 with MSA) and performance often matching or
exceeding specialized approaches. Beyond that, we introduce an auxiliary
self-supervised decoder pre-training approach to improve spatially sensitive
task performance. Prot2Token thus offers a significant step towards a
versatile, high-throughput paradigm for protein modeling, promising to
accelerate biological discovery and the development of novel therapeutics. The
code is available at https://github.com/mahdip72/prot2token .