PRING : Repenser la prédiction des interactions protéine-protéine, des paires aux graphes
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs
July 7, 2025
papers.authors: Xinzhe Zheng, Hao Du, Fanding Xu, Jinzhe Li, Zhiyuan Liu, Wenkang Wang, Tao Chen, Wanli Ouyang, Stan Z. Li, Yan Lu, Nanqing Dong, Yang Zhang
cs.AI
papers.abstract
Les méthodes computationnelles basées sur l'apprentissage profond ont obtenu des résultats prometteurs dans la prédiction des interactions protéine-protéine (PPI). Cependant, les benchmarks existants se concentrent principalement sur des évaluations par paires isolées, négligeant la capacité d'un modèle à reconstruire des réseaux de PPI biologiquement significatifs, ce qui est crucial pour la recherche en biologie. Pour combler cette lacune, nous introduisons PRING, le premier benchmark complet qui évalue la prédiction des interactions protéine-protéine d'un point de vue au niveau du graphe. PRING rassemble un ensemble de données de haute qualité de réseaux de PPI multi-espèces comprenant 21 484 protéines et 186 818 interactions, avec des stratégies bien conçues pour traiter à la fois la redondance et la fuite des données. Sur la base de cet ensemble de données de référence, nous établissons deux paradigmes d'évaluation complémentaires : (1) des tâches orientées topologie, qui évaluent la construction de réseaux de PPI intra et inter-espèces, et (2) des tâches orientées fonction, incluant la prédiction de complexes protéiques, l'analyse de modules GO, et la justification des protéines essentielles. Ces évaluations reflètent non seulement la capacité du modèle à comprendre la topologie du réseau, mais facilitent également l'annotation des fonctions protéiques, la détection de modules biologiques, et même l'analyse des mécanismes des maladies. Des expériences approfondies sur quatre catégories de modèles représentatives, comprenant des approches basées sur la similarité de séquence, des séquences naïves, des modèles de langage protéique, et des structures, démontrent que les modèles actuels de PPI présentent des limitations potentielles dans la récupération des propriétés structurelles et fonctionnelles des réseaux de PPI, mettant en évidence l'écart dans le soutien des applications biologiques réelles. Nous croyons que PRING fournit une plateforme fiable pour guider le développement de modèles de prédiction de PPI plus efficaces pour la communauté. L'ensemble de données et le code source de PRING sont disponibles à l'adresse https://github.com/SophieSarceau/PRING.
English
Deep learning-based computational methods have achieved promising results in
predicting protein-protein interactions (PPIs). However, existing benchmarks
predominantly focus on isolated pairwise evaluations, overlooking a model's
capability to reconstruct biologically meaningful PPI networks, which is
crucial for biology research. To address this gap, we introduce PRING, the
first comprehensive benchmark that evaluates protein-protein interaction
prediction from a graph-level perspective. PRING curates a high-quality,
multi-species PPI network dataset comprising 21,484 proteins and 186,818
interactions, with well-designed strategies to address both data redundancy and
leakage. Building on this golden-standard dataset, we establish two
complementary evaluation paradigms: (1) topology-oriented tasks, which assess
intra and cross-species PPI network construction, and (2) function-oriented
tasks, including protein complex pathway prediction, GO module analysis, and
essential protein justification. These evaluations not only reflect the model's
capability to understand the network topology but also facilitate protein
function annotation, biological module detection, and even disease mechanism
analysis. Extensive experiments on four representative model categories,
consisting of sequence similarity-based, naive sequence-based, protein language
model-based, and structure-based approaches, demonstrate that current PPI
models have potential limitations in recovering both structural and functional
properties of PPI networks, highlighting the gap in supporting real-world
biological applications. We believe PRING provides a reliable platform to guide
the development of more effective PPI prediction models for the community. The
dataset and source code of PRING are available at
https://github.com/SophieSarceau/PRING.