ChatPaper.aiChatPaper

Jenseits einfacher Verkettung: Eine faire Bewertung von PLM-Architekturen für die Vorhersage von Multi-Ketten Protein-Protein-Interaktionen

Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction

May 26, 2025
Autoren: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI

Zusammenfassung

Protein-Protein-Interaktionen (PPIs) sind grundlegend für zahlreiche zelluläre Prozesse, und ihre Charakterisierung ist entscheidend für das Verständnis von Krankheitsmechanismen und die Steuerung der Wirkstoffentdeckung. Während Protein-Sprachmodelle (PLMs) bemerkenswerte Erfolge bei der Vorhersage von Proteinstruktur und -funktion gezeigt haben, bleibt ihre Anwendung auf die sequenzbasierte Vorhersage der PPI-Bindungsaffinität relativ wenig erforscht. Diese Lücke wird oft auf den Mangel an hochwertigen, rigoros verfeinerten Datensätzen und die Abhängigkeit von einfachen Strategien zur Verkettung von Proteinrepräsentationen zurückgeführt. In dieser Arbeit gehen wir auf diese Einschränkungen ein. Zunächst stellen wir eine sorgfältig kuratierte Version des PPB-Affinity-Datensatzes mit insgesamt 8.207 eindeutigen Protein-Protein-Interaktions-Einträgen vor, indem wir Inkonsistenzen in der Annotation und doppelte Einträge für Multi-Ketten-Proteininteraktionen bereinigen. Dieser Datensatz beinhaltet eine strenge Sequenzidentitätsschwelle von ≤ 30 %, um eine robuste Aufteilung in Trainings-, Validierungs- und Testdatensätze zu gewährleisten und Datenlecks zu minimieren. Zweitens schlagen wir vier Architekturen zur Anpassung von PLMs für die PPI-Bindungsaffinitätsvorhersage vor und bewerten sie systematisch: Embedding-Verkettung (EC), Sequenz-Verkettung (SC), hierarchisches Pooling (HP) und gepoolte Aufmerksamkeitsaddition (PAD). Diese Architekturen wurden mit zwei Trainingsmethoden bewertet: vollständiges Fine-Tuning und ein leichtgewichtiger Ansatz, der ConvBERT-Köpfe über eingefrorene PLM-Features verwendet. Unsere umfassenden Experimente mit mehreren führenden PLMs (ProtT5, ESM2, Ankh, Ankh2 und ESM3) zeigten, dass die HP- und PAD-Architekturen konventionelle Verkettungsmethoden durchweg übertreffen und eine Steigerung der Spearman-Korrelation von bis zu 12 % erreichen. Diese Ergebnisse unterstreichen die Notwendigkeit ausgefeilter Architekturentwürfe, um die Fähigkeiten von PLMs für die differenzierte Vorhersage der PPI-Bindungsaffinität voll auszuschöpfen.
English
Protein-protein interactions (PPIs) are fundamental to numerous cellular processes, and their characterization is vital for understanding disease mechanisms and guiding drug discovery. While protein language models (PLMs) have demonstrated remarkable success in predicting protein structure and function, their application to sequence-based PPI binding affinity prediction remains relatively underexplored. This gap is often attributed to the scarcity of high-quality, rigorously refined datasets and the reliance on simple strategies for concatenating protein representations. In this work, we address these limitations. First, we introduce a meticulously curated version of the PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction entries, by resolving annotation inconsistencies and duplicate entries for multi-chain protein interactions. This dataset incorporates a stringent, less than or equal to 30%, sequence identity threshold to ensure robust splitting into training, validation, and test sets, minimizing data leakage. Second, we propose and systematically evaluate four architectures for adapting PLMs to PPI binding affinity prediction: embeddings concatenation (EC), sequences concatenation (SC), hierarchical pooling (HP), and pooled attention addition (PAD). These architectures were assessed using two training methods: full fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM features. Our comprehensive experiments across multiple leading PLMs (ProtT5, ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures consistently outperform conventional concatenation methods, achieving up to 12% increase in terms of Spearman correlation. These results highlight the necessity of sophisticated architectural designs to fully exploit the capabilities of PLMs for nuanced PPI binding affinity prediction.

Summary

AI-Generated Summary

PDF02May 28, 2025