ChatPaper.aiChatPaper

Prot2Token: Унифицированная структура для моделирования белков через предсказание следующего токена

Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction

May 26, 2025
Авторы: Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu
cs.AI

Аннотация

Разнообразие задач предсказания свойств белков традиционно требовало специализированных моделей, что затрудняло разработку универсальных и вычислительно эффективных языковых моделей для белков (Protein Language Models, PLMs). В данной работе мы представляем Prot2Token — унифицированную платформу, которая преодолевает эти ограничения, преобразуя широкий спектр задач, связанных с предсказанием свойств белков, от характеристик на уровне последовательностей и атрибутов отдельных остатков до сложных межбелковых взаимодействий, в стандартизированный формат предсказания следующего токена. В основе Prot2Token лежит авторегрессивный декодер, который использует эмбеддинги из предобученных белковых кодировщиков и управляется обучаемыми токенами задач для выполнения разнообразных предсказаний. Такая архитектура уникальным образом способствует многозадачному обучению, позволяя одной модели эффективно справляться с множеством задач. Мы представляем обширную экспериментальную проверку на различных бенчмарках, демонстрирующую высокую предсказательную способность Prot2Token в различных типах задач, связанных с белками. Ключевые результаты включают значительное ускорение (например, почти в 1000 раз по сравнению с AlphaFold2 при использовании MSA) и производительность, часто сопоставимую или превосходящую специализированные подходы. Кроме того, мы предлагаем дополнительный метод предобучения декодера с использованием самоконтроля для улучшения производительности в задачах, чувствительных к пространственной структуре. Таким образом, Prot2Token представляет собой значительный шаг к универсальной высокопроизводительной парадигме моделирования белков, что обещает ускорить биологические открытия и разработку новых терапевтических средств. Код доступен по адресу https://github.com/mahdip72/prot2token.
English
The diverse nature of protein prediction tasks has traditionally necessitated specialized models, hindering the development of broadly applicable and computationally efficient Protein Language Models (PLMs). In this work, we introduce Prot2Token, a unified framework that overcomes these challenges by converting a wide spectrum of protein-related predictions, from sequence-level properties and residue-specific attributes to complex inter-protein interactions, into a standardized next-token prediction format. At its core, Prot2Token employs an autoregressive decoder, conditioned on embeddings from pre-trained protein encoders and guided by learnable task tokens, to perform diverse predictions. This architecture uniquely facilitates multi-task learning, enabling a single model to master numerous tasks with improved efficiency. We present extensive experimental validation across a variety of benchmarks, demonstrating Prot2Tokens strong predictive power in different types of protein-prediction tasks. Key results include significant speedups (e.g., near 1000x over AlphaFold2 with MSA) and performance often matching or exceeding specialized approaches. Beyond that, we introduce an auxiliary self-supervised decoder pre-training approach to improve spatially sensitive task performance. Prot2Token thus offers a significant step towards a versatile, high-throughput paradigm for protein modeling, promising to accelerate biological discovery and the development of novel therapeutics. The code is available at https://github.com/mahdip72/prot2token .

Summary

AI-Generated Summary

PDF62May 29, 2025