ChatPaper.aiChatPaper

Prot2Token: Un Marco Unificado para el Modelado de Proteínas mediante Predicción del Siguiente Token

Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction

May 26, 2025
Autores: Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu
cs.AI

Resumen

La naturaleza diversa de las tareas de predicción de proteínas ha requerido tradicionalmente modelos especializados, lo que ha dificultado el desarrollo de Modelos de Lenguaje de Proteínas (PLMs) ampliamente aplicables y computacionalmente eficientes. En este trabajo, presentamos Prot2Token, un marco unificado que supera estos desafíos al convertir una amplia gama de predicciones relacionadas con proteínas, desde propiedades a nivel de secuencia y atributos específicos de residuos hasta interacciones inter-proteicas complejas, en un formato estandarizado de predicción del siguiente token. En su núcleo, Prot2Token emplea un decodificador autorregresivo, condicionado en embeddings de codificadores de proteínas preentrenados y guiado por tokens de tarea aprendibles, para realizar diversas predicciones. Esta arquitectura facilita de manera única el aprendizaje multitarea, permitiendo que un solo modelo domine numerosas tareas con mayor eficiencia. Presentamos una extensa validación experimental en una variedad de benchmarks, demostrando el fuerte poder predictivo de Prot2Token en diferentes tipos de tareas de predicción de proteínas. Los resultados clave incluyen aceleraciones significativas (por ejemplo, cerca de 1000x sobre AlphaFold2 con MSA) y un rendimiento que a menudo iguala o supera enfoques especializados. Además, introducimos un enfoque auxiliar de preentrenamiento autosupervisado del decodificador para mejorar el rendimiento en tareas espacialmente sensibles. Prot2Token ofrece así un avance significativo hacia un paradigma versátil y de alto rendimiento para el modelado de proteínas, prometiendo acelerar el descubrimiento biológico y el desarrollo de nuevas terapias. El código está disponible en https://github.com/mahdip72/prot2token.
English
The diverse nature of protein prediction tasks has traditionally necessitated specialized models, hindering the development of broadly applicable and computationally efficient Protein Language Models (PLMs). In this work, we introduce Prot2Token, a unified framework that overcomes these challenges by converting a wide spectrum of protein-related predictions, from sequence-level properties and residue-specific attributes to complex inter-protein interactions, into a standardized next-token prediction format. At its core, Prot2Token employs an autoregressive decoder, conditioned on embeddings from pre-trained protein encoders and guided by learnable task tokens, to perform diverse predictions. This architecture uniquely facilitates multi-task learning, enabling a single model to master numerous tasks with improved efficiency. We present extensive experimental validation across a variety of benchmarks, demonstrating Prot2Tokens strong predictive power in different types of protein-prediction tasks. Key results include significant speedups (e.g., near 1000x over AlphaFold2 with MSA) and performance often matching or exceeding specialized approaches. Beyond that, we introduce an auxiliary self-supervised decoder pre-training approach to improve spatially sensitive task performance. Prot2Token thus offers a significant step towards a versatile, high-throughput paradigm for protein modeling, promising to accelerate biological discovery and the development of novel therapeutics. The code is available at https://github.com/mahdip72/prot2token .

Summary

AI-Generated Summary

PDF62May 29, 2025