За пределами простой конкатенации: объективная оценка архитектур языковых моделей для предсказания многоцепочечных белково-белковых взаимодействий
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction
May 26, 2025
Авторы: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI
Аннотация
Взаимодействия белков (PPIs) играют ключевую роль в многочисленных клеточных процессах, и их изучение имеет важное значение для понимания механизмов заболеваний и разработки лекарств. Хотя языковые модели для белков (PLMs) продемонстрировали впечатляющие успехи в предсказании структуры и функции белков, их применение для прогнозирования аффинности связывания PPIs на основе последовательностей остается недостаточно изученным. Этот пробел часто связывают с нехваткой высококачественных, тщательно обработанных наборов данных и использованием простых стратегий для объединения представлений белков. В данной работе мы устраняем эти ограничения. Во-первых, мы представляем тщательно обработанную версию набора данных PPB-Affinity, содержащего 8 207 уникальных записей взаимодействий белков, устраняя несоответствия в аннотациях и дублирующиеся записи для взаимодействий с участием нескольких цепей. Этот набор данных включает строгий порог идентичности последовательностей ≤30%, что обеспечивает надежное разделение на обучающие, валидационные и тестовые наборы, минимизируя утечку данных. Во-вторых, мы предлагаем и систематически оцениваем четыре архитектуры для адаптации PLMs к прогнозированию аффинности связывания PPIs: конкатенация эмбеддингов (EC), конкатенация последовательностей (SC), иерархическое пулирование (HP) и добавление пулированного внимания (PAD). Эти архитектуры были протестированы с использованием двух методов обучения: полного тонкого настройки и облегченного подхода с использованием ConvBERT-головок на замороженных признаках PLM. Наши всесторонние эксперименты с несколькими ведущими PLMs (ProtT5, ESM2, Ankh, Ankh2 и ESM3) показали, что архитектуры HP и PAD стабильно превосходят традиционные методы конкатенации, достигая увеличения коэффициента корреляции Спирмена до 12%. Эти результаты подчеркивают необходимость сложных архитектурных решений для полного раскрытия потенциала PLMs в прогнозировании аффинности связывания PPIs.
English
Protein-protein interactions (PPIs) are fundamental to numerous cellular
processes, and their characterization is vital for understanding disease
mechanisms and guiding drug discovery. While protein language models (PLMs)
have demonstrated remarkable success in predicting protein structure and
function, their application to sequence-based PPI binding affinity prediction
remains relatively underexplored. This gap is often attributed to the scarcity
of high-quality, rigorously refined datasets and the reliance on simple
strategies for concatenating protein representations. In this work, we address
these limitations. First, we introduce a meticulously curated version of the
PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction
entries, by resolving annotation inconsistencies and duplicate entries for
multi-chain protein interactions. This dataset incorporates a stringent, less
than or equal to 30%, sequence identity threshold to ensure robust splitting
into training, validation, and test sets, minimizing data leakage. Second, we
propose and systematically evaluate four architectures for adapting PLMs to PPI
binding affinity prediction: embeddings concatenation (EC), sequences
concatenation (SC), hierarchical pooling (HP), and pooled attention addition
(PAD). These architectures were assessed using two training methods: full
fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM
features. Our comprehensive experiments across multiple leading PLMs (ProtT5,
ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures
consistently outperform conventional concatenation methods, achieving up to 12%
increase in terms of Spearman correlation. These results highlight the
necessity of sophisticated architectural designs to fully exploit the
capabilities of PLMs for nuanced PPI binding affinity prediction.Summary
AI-Generated Summary