ChatPaper.aiChatPaper

学術界と産業界を架橋する:属性付きグラフクラスタリングの包括的ベンチマーク

Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering

February 9, 2026
著者: Yunhui Liu, Pengyu Qiu, Yu Xing, Yongchao Liu, Peng Du, Chuntao Hong, Jiajun Zheng, Tao Zheng, Tieke He
cs.AI

要旨

属性付きグラスクラスタリング(AGC)は、構造的トポロジーとノード属性を統合し、グラフ構造データの潜在的なパターンを発見する基本的な教師なしタスクである。不正検出やユーザーセグメンテーションなどの産業応用における重要性にもかかわらず、学術研究と実世界への展開の間には大きな隔たりが存在し続けている。現在の評価プロトコルは、小規模で高ホモフィリーな引用データセット、非スケーラブルなフルバッチ学習パラダイム、ラベルが乏しい環境での性能を反映できない教師付き指標への依存に悩まされている。これらの隔たりを埋めるため、我々はPyAGCを提案する。これは、多様なスケールと構造的特性にわたってAGC手法をストレステストするために設計された、包括的でプロダクションレディなベンチマークおよびライブラリである。既存の方法論をモジュール式のEncode-Cluster-Optimizeフレームワークに統一し、初めて、多数の最先端AGCアルゴリズム向けにメモリ効率の良いミニバッチ実装を提供する。我々のベンチマークは、2.7Kから111Mノードに及ぶ12の多様なデータセットを精選し、複雑な表形式特徴と低ホモフィリーを持つ産業グラフを特に組み込んでいる。さらに、従来の教師付き指標に加えて、教師なし構造指標と効率プロファイリングを必須とする包括的評価プロトコルを提唱する。Ant Groupの高リスクな産業ワークフローで実戦検証されたこのベンチマークは、現実的な展開に向けたAGC研究を推進するための、堅牢で再現性が高くスケーラブルなプラットフォームをコミュニティに提供する。コードとリソースは、GitHub (https://github.com/Cloudy1225/PyAGC)、PyPI (https://pypi.org/project/pyagc)、およびドキュメンテーション (https://pyagc.readthedocs.io) を通じて公開されている。
English
Attributed Graph Clustering (AGC) is a fundamental unsupervised task that integrates structural topology and node attributes to uncover latent patterns in graph-structured data. Despite its significance in industrial applications such as fraud detection and user segmentation, a significant chasm persists between academic research and real-world deployment. Current evaluation protocols suffer from the small-scale, high-homophily citation datasets, non-scalable full-batch training paradigms, and a reliance on supervised metrics that fail to reflect performance in label-scarce environments. To bridge these gaps, we present PyAGC, a comprehensive, production-ready benchmark and library designed to stress-test AGC methods across diverse scales and structural properties. We unify existing methodologies into a modular Encode-Cluster-Optimize framework and, for the first time, provide memory-efficient, mini-batch implementations for a wide array of state-of-the-art AGC algorithms. Our benchmark curates 12 diverse datasets, ranging from 2.7K to 111M nodes, specifically incorporating industrial graphs with complex tabular features and low homophily. Furthermore, we advocate for a holistic evaluation protocol that mandates unsupervised structural metrics and efficiency profiling alongside traditional supervised metrics. Battle-tested in high-stakes industrial workflows at Ant Group, this benchmark offers the community a robust, reproducible, and scalable platform to advance AGC research towards realistic deployment. The code and resources are publicly available via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc), and Documentation (https://pyagc.readthedocs.io).
PDF11February 12, 2026