PRING: Ripensare la previsione delle interazioni proteina-proteina da coppie a grafi
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs
July 7, 2025
Autori: Xinzhe Zheng, Hao Du, Fanding Xu, Jinzhe Li, Zhiyuan Liu, Wenkang Wang, Tao Chen, Wanli Ouyang, Stan Z. Li, Yan Lu, Nanqing Dong, Yang Zhang
cs.AI
Abstract
I metodi computazionali basati sul deep learning hanno ottenuto risultati promettenti nella previsione delle interazioni proteina-proteina (PPI). Tuttavia, i benchmark esistenti si concentrano prevalentemente su valutazioni isolate a coppie, trascurando la capacità di un modello di ricostruire reti PPI biologicamente significative, aspetto cruciale per la ricerca biologica. Per colmare questa lacuna, introduciamo PRING, il primo benchmark completo che valuta la previsione delle interazioni proteina-proteina da una prospettiva a livello di grafo. PRING cura un dataset di alta qualità di reti PPI multi-specie, comprendente 21.484 proteine e 186.818 interazioni, con strategie ben progettate per affrontare sia la ridondanza che la dispersione dei dati. Basandosi su questo dataset di riferimento, stabiliamo due paradigmi di valutazione complementari: (1) task orientati alla topologia, che valutano la costruzione di reti PPI intra e cross-specie, e (2) task orientati alla funzione, inclusa la previsione di complessi proteici, l'analisi di moduli GO e la giustificazione di proteine essenziali. Queste valutazioni non solo riflettono la capacità del modello di comprendere la topologia della rete, ma facilitano anche l'annotazione delle funzioni proteiche, il rilevamento di moduli biologici e persino l'analisi dei meccanismi delle malattie. Esperimenti estesi su quattro categorie rappresentative di modelli, comprendenti approcci basati sulla similarità di sequenza, sequenze naive, modelli linguistici proteici e strutture proteiche, dimostrano che gli attuali modelli PPI presentano potenziali limitazioni nel recuperare sia le proprietà strutturali che funzionali delle reti PPI, evidenziando il divario nel supporto alle applicazioni biologiche nel mondo reale. Crediamo che PRING fornisca una piattaforma affidabile per guidare lo sviluppo di modelli di previsione PPI più efficaci per la comunità. Il dataset e il codice sorgente di PRING sono disponibili all'indirizzo https://github.com/SophieSarceau/PRING.
English
Deep learning-based computational methods have achieved promising results in
predicting protein-protein interactions (PPIs). However, existing benchmarks
predominantly focus on isolated pairwise evaluations, overlooking a model's
capability to reconstruct biologically meaningful PPI networks, which is
crucial for biology research. To address this gap, we introduce PRING, the
first comprehensive benchmark that evaluates protein-protein interaction
prediction from a graph-level perspective. PRING curates a high-quality,
multi-species PPI network dataset comprising 21,484 proteins and 186,818
interactions, with well-designed strategies to address both data redundancy and
leakage. Building on this golden-standard dataset, we establish two
complementary evaluation paradigms: (1) topology-oriented tasks, which assess
intra and cross-species PPI network construction, and (2) function-oriented
tasks, including protein complex pathway prediction, GO module analysis, and
essential protein justification. These evaluations not only reflect the model's
capability to understand the network topology but also facilitate protein
function annotation, biological module detection, and even disease mechanism
analysis. Extensive experiments on four representative model categories,
consisting of sequence similarity-based, naive sequence-based, protein language
model-based, and structure-based approaches, demonstrate that current PPI
models have potential limitations in recovering both structural and functional
properties of PPI networks, highlighting the gap in supporting real-world
biological applications. We believe PRING provides a reliable platform to guide
the development of more effective PPI prediction models for the community. The
dataset and source code of PRING are available at
https://github.com/SophieSarceau/PRING.