PRING: Repensando a Previsão de Interações Proteína-Proteína de Pares para Grafos
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs
July 7, 2025
Autores: Xinzhe Zheng, Hao Du, Fanding Xu, Jinzhe Li, Zhiyuan Liu, Wenkang Wang, Tao Chen, Wanli Ouyang, Stan Z. Li, Yan Lu, Nanqing Dong, Yang Zhang
cs.AI
Resumo
Métodos computacionais baseados em aprendizado profundo têm alcançado resultados promissores na previsão de interações proteína-proteína (PPIs). No entanto, os benchmarks existentes concentram-se predominantemente em avaliações pareadas isoladas, negligenciando a capacidade de um modelo de reconstruir redes de PPIs biologicamente significativas, o que é crucial para a pesquisa em biologia. Para abordar essa lacuna, introduzimos o PRING, o primeiro benchmark abrangente que avalia a previsão de interações proteína-proteína a partir de uma perspectiva em nível de grafo. O PRING organiza um conjunto de dados de alta qualidade de redes de PPIs multi-espécies, compreendendo 21.484 proteínas e 186.818 interações, com estratégias bem projetadas para lidar com redundância e vazamento de dados. Com base nesse conjunto de dados de padrão ouro, estabelecemos dois paradigmas de avaliação complementares: (1) tarefas orientadas à topologia, que avaliam a construção de redes de PPIs intra e inter-espécies, e (2) tarefas orientadas à função, incluindo previsão de vias de complexos proteicos, análise de módulos GO e justificação de proteínas essenciais. Essas avaliações não apenas refletem a capacidade do modelo de compreender a topologia da rede, mas também facilitam a anotação de funções proteicas, a detecção de módulos biológicos e até a análise de mecanismos de doenças. Experimentos extensivos em quatro categorias representativas de modelos, consistindo em abordagens baseadas em similaridade de sequência, sequência ingênua, modelos de linguagem proteica e estrutura, demonstram que os modelos atuais de PPI têm limitações potenciais na recuperação de propriedades estruturais e funcionais das redes de PPIs, destacando a lacuna no suporte a aplicações biológicas do mundo real. Acreditamos que o PRING fornece uma plataforma confiável para guiar o desenvolvimento de modelos de previsão de PPI mais eficazes para a comunidade. O conjunto de dados e o código-fonte do PRING estão disponíveis em https://github.com/SophieSarceau/PRING.
English
Deep learning-based computational methods have achieved promising results in
predicting protein-protein interactions (PPIs). However, existing benchmarks
predominantly focus on isolated pairwise evaluations, overlooking a model's
capability to reconstruct biologically meaningful PPI networks, which is
crucial for biology research. To address this gap, we introduce PRING, the
first comprehensive benchmark that evaluates protein-protein interaction
prediction from a graph-level perspective. PRING curates a high-quality,
multi-species PPI network dataset comprising 21,484 proteins and 186,818
interactions, with well-designed strategies to address both data redundancy and
leakage. Building on this golden-standard dataset, we establish two
complementary evaluation paradigms: (1) topology-oriented tasks, which assess
intra and cross-species PPI network construction, and (2) function-oriented
tasks, including protein complex pathway prediction, GO module analysis, and
essential protein justification. These evaluations not only reflect the model's
capability to understand the network topology but also facilitate protein
function annotation, biological module detection, and even disease mechanism
analysis. Extensive experiments on four representative model categories,
consisting of sequence similarity-based, naive sequence-based, protein language
model-based, and structure-based approaches, demonstrate that current PPI
models have potential limitations in recovering both structural and functional
properties of PPI networks, highlighting the gap in supporting real-world
biological applications. We believe PRING provides a reliable platform to guide
the development of more effective PPI prediction models for the community. The
dataset and source code of PRING are available at
https://github.com/SophieSarceau/PRING.