PRING: 단백질-단백질 상호작용 예측을 쌍에서 그래프로 재고하다
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs
July 7, 2025
저자: Xinzhe Zheng, Hao Du, Fanding Xu, Jinzhe Li, Zhiyuan Liu, Wenkang Wang, Tao Chen, Wanli Ouyang, Stan Z. Li, Yan Lu, Nanqing Dong, Yang Zhang
cs.AI
초록
딥러닝 기반 계산 방법은 단백질-단백질 상호작용(PPI) 예측에서 유망한 결과를 달성했습니다. 그러나 기존 벤치마크는 주로 고립된 쌍별 평가에 초점을 맞추어, 생물학 연구에 중요한 생물학적으로 의미 있는 PPI 네트워크를 재구성하는 모델의 능력을 간과하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 그래프 수준 관점에서 단백질-단백질 상호작용 예측을 평가하는 첫 번째 포괄적인 벤치마크인 PRING을 소개합니다. PRING은 21,484개의 단백질과 186,818개의 상호작용으로 구성된 고품질의 다종 PPI 네트워크 데이터셋을 구축하며, 데이터 중복과 누출을 해결하기 위한 잘 설계된 전략을 포함합니다. 이 금표준 데이터셋을 기반으로, 우리는 두 가지 상호 보완적인 평가 패러다임을 설정했습니다: (1) 토폴로지 중심 작업으로, 종내 및 종간 PPI 네트워크 구성을 평가하고, (2) 기능 중심 작업으로, 단백질 복합체 경로 예측, GO 모듈 분석, 필수 단백질 정당화를 포함합니다. 이러한 평가는 모델이 네트워크 토폴로지를 이해하는 능력을 반영할 뿐만 아니라, 단백질 기능 주석, 생물학적 모듈 탐지, 심지어 질병 메커니즘 분석을 촉진합니다. 시퀀스 유사성 기반, 순수 시퀀스 기반, 단백질 언어 모델 기반, 구조 기반 접근법으로 구성된 네 가지 대표적인 모델 범주에 대한 광범위한 실험은 현재 PPI 모델이 PPI 네트워크의 구조적 및 기능적 특성을 복구하는 데 잠재적인 한계가 있음을 보여주며, 실제 생물학적 응용을 지원하는 데 있어 격차를 강조합니다. 우리는 PRING이 커뮤니티를 위해 더 효과적인 PPI 예측 모델 개발을 안내하는 신뢰할 수 있는 플랫폼을 제공한다고 믿습니다. PRING의 데이터셋과 소스 코드는 https://github.com/SophieSarceau/PRING에서 이용할 수 있습니다.
English
Deep learning-based computational methods have achieved promising results in
predicting protein-protein interactions (PPIs). However, existing benchmarks
predominantly focus on isolated pairwise evaluations, overlooking a model's
capability to reconstruct biologically meaningful PPI networks, which is
crucial for biology research. To address this gap, we introduce PRING, the
first comprehensive benchmark that evaluates protein-protein interaction
prediction from a graph-level perspective. PRING curates a high-quality,
multi-species PPI network dataset comprising 21,484 proteins and 186,818
interactions, with well-designed strategies to address both data redundancy and
leakage. Building on this golden-standard dataset, we establish two
complementary evaluation paradigms: (1) topology-oriented tasks, which assess
intra and cross-species PPI network construction, and (2) function-oriented
tasks, including protein complex pathway prediction, GO module analysis, and
essential protein justification. These evaluations not only reflect the model's
capability to understand the network topology but also facilitate protein
function annotation, biological module detection, and even disease mechanism
analysis. Extensive experiments on four representative model categories,
consisting of sequence similarity-based, naive sequence-based, protein language
model-based, and structure-based approaches, demonstrate that current PPI
models have potential limitations in recovering both structural and functional
properties of PPI networks, highlighting the gap in supporting real-world
biological applications. We believe PRING provides a reliable platform to guide
the development of more effective PPI prediction models for the community. The
dataset and source code of PRING are available at
https://github.com/SophieSarceau/PRING.