Além da Concatenação Simples: Avaliação Justa de Arquiteturas de PLM para a Previsão de Interações Proteína-Proteína de Múltiplas Cadeias
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction
May 26, 2025
Autores: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar
cs.AI
Resumo
As interações proteína-proteína (PPIs) são fundamentais para inúmeros processos celulares, e sua caracterização é crucial para compreender os mecanismos das doenças e orientar a descoberta de medicamentos. Embora os modelos de linguagem de proteínas (PLMs) tenham demonstrado sucesso notável na previsão da estrutura e função de proteínas, sua aplicação na previsão da afinidade de ligação de PPIs baseada em sequência permanece relativamente pouco explorada. Essa lacuna é frequentemente atribuída à escassez de conjuntos de dados de alta qualidade e rigorosamente refinados, bem como à dependência de estratégias simples para concatenar representações de proteínas. Neste trabalho, abordamos essas limitações. Primeiro, introduzimos uma versão meticulosamente curada do conjunto de dados PPB-Affinity, contendo um total de 8.207 entradas únicas de interações proteína-proteína, resolvendo inconsistências de anotação e entradas duplicadas para interações de proteínas de múltiplas cadeias. Esse conjunto de dados incorpora um rigoroso limite de identidade de sequência menor ou igual a 30% para garantir uma divisão robusta em conjuntos de treinamento, validação e teste, minimizando o vazamento de dados. Segundo, propomos e avaliamos sistematicamente quatro arquiteturas para adaptar PLMs à previsão da afinidade de ligação de PPIs: concatenação de embeddings (EC), concatenação de sequências (SC), pooling hierárquico (HP) e adição de atenção agrupada (PAD). Essas arquiteturas foram avaliadas usando dois métodos de treinamento: ajuste fino completo e uma abordagem leve que emprega cabeças ConvBERT sobre características congeladas de PLMs. Nossos experimentos abrangentes com múltiplos PLMs líderes (ProtT5, ESM2, Ankh, Ankh2 e ESM3) demonstraram que as arquiteturas HP e PAD superam consistentemente os métodos convencionais de concatenação, alcançando um aumento de até 12% em termos de correlação de Spearman. Esses resultados destacam a necessidade de designs arquitetônicos sofisticados para explorar plenamente as capacidades dos PLMs na previsão da afinidade de ligação de PPIs.
English
Protein-protein interactions (PPIs) are fundamental to numerous cellular
processes, and their characterization is vital for understanding disease
mechanisms and guiding drug discovery. While protein language models (PLMs)
have demonstrated remarkable success in predicting protein structure and
function, their application to sequence-based PPI binding affinity prediction
remains relatively underexplored. This gap is often attributed to the scarcity
of high-quality, rigorously refined datasets and the reliance on simple
strategies for concatenating protein representations. In this work, we address
these limitations. First, we introduce a meticulously curated version of the
PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction
entries, by resolving annotation inconsistencies and duplicate entries for
multi-chain protein interactions. This dataset incorporates a stringent, less
than or equal to 30%, sequence identity threshold to ensure robust splitting
into training, validation, and test sets, minimizing data leakage. Second, we
propose and systematically evaluate four architectures for adapting PLMs to PPI
binding affinity prediction: embeddings concatenation (EC), sequences
concatenation (SC), hierarchical pooling (HP), and pooled attention addition
(PAD). These architectures were assessed using two training methods: full
fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM
features. Our comprehensive experiments across multiple leading PLMs (ProtT5,
ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures
consistently outperform conventional concatenation methods, achieving up to 12%
increase in terms of Spearman correlation. These results highlight the
necessity of sophisticated architectural designs to fully exploit the
capabilities of PLMs for nuanced PPI binding affinity prediction.