Voorbij Eenvoudige Aaneenschakeling: Eerlijke Evaluatie van PLM-Architecturen voor Voorspelling van Multi-Keten Eiwit-Eiwit Interacties
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction
May 26, 2025
Auteurs: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI
Samenvatting
Eiwit-eiwitinteracties (PPI's) zijn fundamenteel voor tal van cellulaire processen, en hun karakterisering is essentieel voor het begrijpen van ziekte mechanismen en het begeleiden van medicijnontdekking. Hoewel eiwit-taalmodellen (PLM's) opmerkelijke successen hebben geboekt in het voorspellen van eiwitstructuur en -functie, blijft hun toepassing op sequentiegebaseerde voorspelling van PPI-bindingsaffiniteit relatief onderbelicht. Dit gat wordt vaak toegeschreven aan het gebrek aan hoogwaardige, rigoureus verfijnde datasets en de afhankelijkheid van eenvoudige strategieën voor het samenvoegen van eiwitrepresentaties. In dit werk gaan we deze beperkingen aanpakken. Ten eerste introduceren we een zorgvuldig samengestelde versie van de PPB-Affinity dataset met in totaal 8.207 unieke eiwit-eiwitinteractievermeldingen, door annotatie-inconsistenties en dubbele vermeldingen voor multi-keten eiwitinteracties op te lossen. Deze dataset bevat een strikte, minder dan of gelijk aan 30%, sequentie-identiteitsdrempel om een robuuste splitsing in trainings-, validatie- en test sets te garanderen, waardoor datalekken worden geminimaliseerd. Ten tweede stellen we vier architecturen voor en evalueren deze systematisch voor het aanpassen van PLM's aan PPI-bindingsaffiniteitsvoorspelling: concatenatie van embeddings (EC), concatenatie van sequenties (SC), hiërarchische pooling (HP), en pooled attention addition (PAD). Deze architecturen werden beoordeeld met behulp van twee trainingsmethoden: volledige fine-tuning en een lichtgewicht benadering die ConvBERT-heads gebruikt over bevroren PLM-kenmerken. Onze uitgebreide experimenten met meerdere toonaangevende PLM's (ProtT5, ESM2, Ankh, Ankh2 en ESM3) toonden aan dat de HP- en PAD-architecturen consequent beter presteren dan conventionele concatenatiemethoden, met een verbetering van tot 12% in termen van Spearman-correlatie. Deze resultaten benadrukken de noodzaak van geavanceerde architectonische ontwerpen om de mogelijkheden van PLM's volledig te benutten voor genuanceerde PPI-bindingsaffiniteitsvoorspelling.
English
Protein-protein interactions (PPIs) are fundamental to numerous cellular
processes, and their characterization is vital for understanding disease
mechanisms and guiding drug discovery. While protein language models (PLMs)
have demonstrated remarkable success in predicting protein structure and
function, their application to sequence-based PPI binding affinity prediction
remains relatively underexplored. This gap is often attributed to the scarcity
of high-quality, rigorously refined datasets and the reliance on simple
strategies for concatenating protein representations. In this work, we address
these limitations. First, we introduce a meticulously curated version of the
PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction
entries, by resolving annotation inconsistencies and duplicate entries for
multi-chain protein interactions. This dataset incorporates a stringent, less
than or equal to 30%, sequence identity threshold to ensure robust splitting
into training, validation, and test sets, minimizing data leakage. Second, we
propose and systematically evaluate four architectures for adapting PLMs to PPI
binding affinity prediction: embeddings concatenation (EC), sequences
concatenation (SC), hierarchical pooling (HP), and pooled attention addition
(PAD). These architectures were assessed using two training methods: full
fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM
features. Our comprehensive experiments across multiple leading PLMs (ProtT5,
ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures
consistently outperform conventional concatenation methods, achieving up to 12%
increase in terms of Spearman correlation. These results highlight the
necessity of sophisticated architectural designs to fully exploit the
capabilities of PLMs for nuanced PPI binding affinity prediction.