ChatPaper.aiChatPaper

Au-delà de la simple concaténation : Évaluation équitable des architectures de modèles de langage pré-entraînés pour la prédiction des interactions protéine-protéine multi-chaînes

Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction

May 26, 2025
Auteurs: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI

Résumé

Les interactions protéine-protéine (PPI) sont fondamentales pour de nombreux processus cellulaires, et leur caractérisation est essentielle pour comprendre les mécanismes des maladies et orienter la découverte de médicaments. Bien que les modèles de langage protéique (PLM) aient démontré un succès remarquable dans la prédiction de la structure et de la fonction des protéines, leur application à la prédiction de l'affinité de liaison des PPI basée sur les séquences reste relativement peu explorée. Cette lacune est souvent attribuée à la rareté de jeux de données de haute qualité et rigoureusement affinés, ainsi qu'à la dépendance envers des stratégies simples pour concaténer les représentations protéiques. Dans ce travail, nous abordons ces limitations. Premièrement, nous introduisons une version méticuleusement curatée du jeu de données PPB-Affinity, comprenant un total de 8 207 entrées uniques d'interactions protéine-protéine, en résolvant les incohérences d'annotation et les entrées en double pour les interactions protéiques multi-chaînes. Ce jeu de données intègre un seuil strict d'identité de séquence inférieur ou égal à 30 % pour garantir une division robuste en ensembles d'entraînement, de validation et de test, minimisant ainsi les fuites de données. Deuxièmement, nous proposons et évaluons systématiquement quatre architectures pour adapter les PLM à la prédiction de l'affinité de liaison des PPI : la concaténation des embeddings (EC), la concaténation des séquences (SC), le pooling hiérarchique (HP) et l'addition d'attention poolée (PAD). Ces architectures ont été évaluées en utilisant deux méthodes d'entraînement : un ajustement fin complet et une approche légère utilisant des têtes ConvBERT sur des caractéristiques PLM gelées. Nos expériences approfondies sur plusieurs PLM de pointe (ProtT5, ESM2, Ankh, Ankh2 et ESM3) ont démontré que les architectures HP et PAD surpassent systématiquement les méthodes de concaténation conventionnelles, atteignant une augmentation allant jusqu'à 12 % en termes de corrélation de Spearman. Ces résultats soulignent la nécessité de conceptions architecturales sophistiquées pour exploiter pleinement les capacités des PLM dans la prédiction nuancée de l'affinité de liaison des PPI.
English
Protein-protein interactions (PPIs) are fundamental to numerous cellular processes, and their characterization is vital for understanding disease mechanisms and guiding drug discovery. While protein language models (PLMs) have demonstrated remarkable success in predicting protein structure and function, their application to sequence-based PPI binding affinity prediction remains relatively underexplored. This gap is often attributed to the scarcity of high-quality, rigorously refined datasets and the reliance on simple strategies for concatenating protein representations. In this work, we address these limitations. First, we introduce a meticulously curated version of the PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction entries, by resolving annotation inconsistencies and duplicate entries for multi-chain protein interactions. This dataset incorporates a stringent, less than or equal to 30%, sequence identity threshold to ensure robust splitting into training, validation, and test sets, minimizing data leakage. Second, we propose and systematically evaluate four architectures for adapting PLMs to PPI binding affinity prediction: embeddings concatenation (EC), sequences concatenation (SC), hierarchical pooling (HP), and pooled attention addition (PAD). These architectures were assessed using two training methods: full fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM features. Our comprehensive experiments across multiple leading PLMs (ProtT5, ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures consistently outperform conventional concatenation methods, achieving up to 12% increase in terms of Spearman correlation. These results highlight the necessity of sophisticated architectural designs to fully exploit the capabilities of PLMs for nuanced PPI binding affinity prediction.

Summary

AI-Generated Summary

PDF02May 28, 2025