PRING: Replanteamiento de la Predicción de Interacciones Proteína-Proteína desde Pares a Grafos
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs
July 7, 2025
Autores: Xinzhe Zheng, Hao Du, Fanding Xu, Jinzhe Li, Zhiyuan Liu, Wenkang Wang, Tao Chen, Wanli Ouyang, Stan Z. Li, Yan Lu, Nanqing Dong, Yang Zhang
cs.AI
Resumen
Los métodos computacionales basados en aprendizaje profundo han logrado resultados prometedores en la predicción de interacciones proteína-proteína (PPIs). Sin embargo, los puntos de referencia existentes se centran predominantemente en evaluaciones aisladas de pares, pasando por alto la capacidad de un modelo para reconstruir redes de PPIs biológicamente significativas, lo cual es crucial para la investigación en biología. Para abordar esta brecha, presentamos PRING, el primer punto de referencia integral que evalúa la predicción de interacciones proteína-proteína desde una perspectiva a nivel de grafo. PRING recopila un conjunto de datos de alta calidad de redes de PPIs multi-especies que comprende 21,484 proteínas y 186,818 interacciones, con estrategias bien diseñadas para abordar tanto la redundancia como la filtración de datos. Basándonos en este conjunto de datos de referencia, establecemos dos paradigmas de evaluación complementarios: (1) tareas orientadas a la topología, que evalúan la construcción de redes de PPIs intra e inter-especies, y (2) tareas orientadas a la función, incluyendo la predicción de vías de complejos proteicos, el análisis de módulos GO y la justificación de proteínas esenciales. Estas evaluaciones no solo reflejan la capacidad del modelo para comprender la topología de la red, sino que también facilitan la anotación de funciones proteicas, la detección de módulos biológicos e incluso el análisis de mecanismos de enfermedades. Experimentos extensos en cuatro categorías representativas de modelos, que consisten en enfoques basados en similitud de secuencias, secuencias simples, modelos de lenguaje proteico y estructuras, demuestran que los modelos actuales de PPIs tienen limitaciones potenciales para recuperar tanto las propiedades estructurales como funcionales de las redes de PPIs, destacando la brecha en el apoyo a aplicaciones biológicas del mundo real. Creemos que PRING proporciona una plataforma confiable para guiar el desarrollo de modelos de predicción de PPIs más efectivos para la comunidad. El conjunto de datos y el código fuente de PRING están disponibles en https://github.com/SophieSarceau/PRING.
English
Deep learning-based computational methods have achieved promising results in
predicting protein-protein interactions (PPIs). However, existing benchmarks
predominantly focus on isolated pairwise evaluations, overlooking a model's
capability to reconstruct biologically meaningful PPI networks, which is
crucial for biology research. To address this gap, we introduce PRING, the
first comprehensive benchmark that evaluates protein-protein interaction
prediction from a graph-level perspective. PRING curates a high-quality,
multi-species PPI network dataset comprising 21,484 proteins and 186,818
interactions, with well-designed strategies to address both data redundancy and
leakage. Building on this golden-standard dataset, we establish two
complementary evaluation paradigms: (1) topology-oriented tasks, which assess
intra and cross-species PPI network construction, and (2) function-oriented
tasks, including protein complex pathway prediction, GO module analysis, and
essential protein justification. These evaluations not only reflect the model's
capability to understand the network topology but also facilitate protein
function annotation, biological module detection, and even disease mechanism
analysis. Extensive experiments on four representative model categories,
consisting of sequence similarity-based, naive sequence-based, protein language
model-based, and structure-based approaches, demonstrate that current PPI
models have potential limitations in recovering both structural and functional
properties of PPI networks, highlighting the gap in supporting real-world
biological applications. We believe PRING provides a reliable platform to guide
the development of more effective PPI prediction models for the community. The
dataset and source code of PRING are available at
https://github.com/SophieSarceau/PRING.