Más allá de la concatenación simple: Evaluación justa de arquitecturas de modelos de lenguaje preentrenados para la predicción de interacciones proteína-proteína de múltiples cadenas
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction
May 26, 2025
Autores: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI
Resumen
Las interacciones proteína-proteína (PPIs) son fundamentales para numerosos procesos celulares, y su caracterización es crucial para comprender los mecanismos de las enfermedades y guiar el descubrimiento de fármacos. Si bien los modelos de lenguaje de proteínas (PLMs) han demostrado un éxito notable en la predicción de la estructura y función de las proteínas, su aplicación en la predicción de la afinidad de unión de PPIs basada en secuencias sigue siendo relativamente poco explorada. Esta brecha se atribuye a menudo a la escasez de conjuntos de datos de alta calidad y rigurosamente refinados, así como a la dependencia de estrategias simples para concatenar representaciones de proteínas. En este trabajo, abordamos estas limitaciones. En primer lugar, presentamos una versión meticulosamente curada del conjunto de datos PPB-Affinity, que consta de un total de 8,207 entradas únicas de interacciones proteína-proteína, resolviendo inconsistencias en las anotaciones y entradas duplicadas para interacciones de proteínas de múltiples cadenas. Este conjunto de datos incorpora un umbral estricto de identidad de secuencia menor o igual al 30% para garantizar una división robusta en conjuntos de entrenamiento, validación y prueba, minimizando la fuga de datos. En segundo lugar, proponemos y evaluamos sistemáticamente cuatro arquitecturas para adaptar los PLMs a la predicción de la afinidad de unión de PPIs: concatenación de embeddings (EC), concatenación de secuencias (SC), agrupación jerárquica (HP) y adición de atención agrupada (PAD). Estas arquitecturas se evaluaron utilizando dos métodos de entrenamiento: ajuste fino completo y un enfoque ligero que emplea cabezas ConvBERT sobre características congeladas de los PLMs. Nuestros experimentos exhaustivos con múltiples PLMs líderes (ProtT5, ESM2, Ankh, Ankh2 y ESM3) demostraron que las arquitecturas HP y PAD superan consistentemente los métodos de concatenación convencionales, logrando un aumento de hasta el 12% en términos de correlación de Spearman. Estos resultados destacan la necesidad de diseños arquitectónicos sofisticados para explotar plenamente las capacidades de los PLMs en la predicción matizada de la afinidad de unión de PPIs.
English
Protein-protein interactions (PPIs) are fundamental to numerous cellular
processes, and their characterization is vital for understanding disease
mechanisms and guiding drug discovery. While protein language models (PLMs)
have demonstrated remarkable success in predicting protein structure and
function, their application to sequence-based PPI binding affinity prediction
remains relatively underexplored. This gap is often attributed to the scarcity
of high-quality, rigorously refined datasets and the reliance on simple
strategies for concatenating protein representations. In this work, we address
these limitations. First, we introduce a meticulously curated version of the
PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction
entries, by resolving annotation inconsistencies and duplicate entries for
multi-chain protein interactions. This dataset incorporates a stringent, less
than or equal to 30%, sequence identity threshold to ensure robust splitting
into training, validation, and test sets, minimizing data leakage. Second, we
propose and systematically evaluate four architectures for adapting PLMs to PPI
binding affinity prediction: embeddings concatenation (EC), sequences
concatenation (SC), hierarchical pooling (HP), and pooled attention addition
(PAD). These architectures were assessed using two training methods: full
fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM
features. Our comprehensive experiments across multiple leading PLMs (ProtT5,
ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures
consistently outperform conventional concatenation methods, achieving up to 12%
increase in terms of Spearman correlation. These results highlight the
necessity of sophisticated architectural designs to fully exploit the
capabilities of PLMs for nuanced PPI binding affinity prediction.Summary
AI-Generated Summary