Oltre la semplice concatenazione: una valutazione equa delle architetture PLM per la previsione delle interazioni proteina-proteina multi-catena
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction
May 26, 2025
Autori: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI
Abstract
Le interazioni proteina-proteina (PPI) sono fondamentali per numerosi processi cellulari, e la loro caratterizzazione è cruciale per comprendere i meccanismi delle malattie e guidare la scoperta di farmaci. Sebbene i modelli linguistici per proteine (PLM) abbiano dimostrato un notevole successo nella previsione della struttura e della funzione proteica, la loro applicazione alla previsione dell'affinità di legame basata sulla sequenza rimane relativamente poco esplorata. Questa lacuna è spesso attribuita alla scarsità di dataset di alta qualità e rigorosamente raffinati, nonché alla dipendenza da strategie semplici per concatenare le rappresentazioni proteiche. In questo lavoro, affrontiamo queste limitazioni. In primo luogo, introduciamo una versione meticolosamente curata del dataset PPB-Affinity, composto da un totale di 8.207 interazioni proteina-proteina uniche, risolvendo incongruenze nelle annotazioni e duplicati per interazioni multi-catena. Questo dataset incorpora una soglia rigorosa di identità di sequenza, pari o inferiore al 30%, per garantire una suddivisione robusta in set di addestramento, validazione e test, minimizzando la dispersione dei dati. In secondo luogo, proponiamo e valutiamo sistematicamente quattro architetture per adattare i PLM alla previsione dell'affinità di legame PPI: concatenazione degli embedding (EC), concatenazione delle sequenze (SC), pooling gerarchico (HP) e aggiunta di attenzione aggregata (PAD). Queste architetture sono state valutate utilizzando due metodi di addestramento: fine-tuning completo e un approccio leggero che impiega teste ConvBERT su caratteristiche PLM congelate. I nostri esperimenti completi su più PLM leader (ProtT5, ESM2, Ankh, Ankh2 e ESM3) hanno dimostrato che le architetture HP e PAD superano costantemente i metodi di concatenazione convenzionali, raggiungendo un aumento fino al 12% in termini di correlazione di Spearman. Questi risultati evidenziano la necessità di progettazioni architetturali sofisticate per sfruttare appieno le capacità dei PLM nella previsione sfumata dell'affinità di legame PPI.
English
Protein-protein interactions (PPIs) are fundamental to numerous cellular
processes, and their characterization is vital for understanding disease
mechanisms and guiding drug discovery. While protein language models (PLMs)
have demonstrated remarkable success in predicting protein structure and
function, their application to sequence-based PPI binding affinity prediction
remains relatively underexplored. This gap is often attributed to the scarcity
of high-quality, rigorously refined datasets and the reliance on simple
strategies for concatenating protein representations. In this work, we address
these limitations. First, we introduce a meticulously curated version of the
PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction
entries, by resolving annotation inconsistencies and duplicate entries for
multi-chain protein interactions. This dataset incorporates a stringent, less
than or equal to 30%, sequence identity threshold to ensure robust splitting
into training, validation, and test sets, minimizing data leakage. Second, we
propose and systematically evaluate four architectures for adapting PLMs to PPI
binding affinity prediction: embeddings concatenation (EC), sequences
concatenation (SC), hierarchical pooling (HP), and pooled attention addition
(PAD). These architectures were assessed using two training methods: full
fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM
features. Our comprehensive experiments across multiple leading PLMs (ProtT5,
ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures
consistently outperform conventional concatenation methods, achieving up to 12%
increase in terms of Spearman correlation. These results highlight the
necessity of sophisticated architectural designs to fully exploit the
capabilities of PLMs for nuanced PPI binding affinity prediction.