ChatPaper.aiChatPaper

Brückenschlag zwischen Wissenschaft und Industrie: Ein umfassender Benchmark für attributiertes Graph-Clustering

Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering

February 9, 2026
papers.authors: Yunhui Liu, Pengyu Qiu, Yu Xing, Yongchao Liu, Peng Du, Chuntao Hong, Jiajun Zheng, Tao Zheng, Tieke He
cs.AI

papers.abstract

Attributed Graph Clustering (AGC) ist eine grundlegende unüberwachte Aufgabe, die strukturelle Topologie und Knotenattribute integriert, um latente Muster in graphstrukturierten Daten aufzudecken. Trotz ihrer Bedeutung in industriellen Anwendungen wie Betrugserkennung und Nutzersegmentierung besteht nach wie vor eine erhebliche Kluft zwischen akademischer Forschung und realem Einsatz. Aktuelle Evaluierungsprotokolle leiden unter kleinformatigen, hochhomophilen Zitationsdatensätzen, nicht-skalierbaren Full-Batch-Trainingsparadigmen und einer Abhängigkeit von überwachten Metriken, die die Leistung in umgebungssparsamen Umgebungen nicht widerspiegeln. Um diese Lücken zu schließen, präsentieren wir PyAGC, einen umfassenden, produktionsreifen Benchmark und eine Bibliothek, die entwickelt wurde, um AGC-Methoden über verschiedene Skalen und strukturelle Eigenschaften hinweg zu stress-testen. Wir vereinen bestehende Methodiken in ein modulares Encode-Cluster-Optimize-Framework und bieten erstmals speichereffiziente Mini-Batch-Implementierungen für eine Vielzahl modernster AGC-Algorithmen. Unser Benchmark umfasst 12 diverse Datensätze, die von 2.700 bis 111 Millionen Knoten reichen und insbesondere industrielle Graphen mit komplexen tabellarischen Merkmalen und geringer Homophilie integrieren. Darüber hinaus plädieren wir für ein holistisches Evaluierungsprotokoll, das unüberwachte strukturelle Metriken und Effizienzprofile neben traditionellen überwachten Metriken vorschreibt. Dieser Benchmark, der in hochriskanten industriellen Workflows bei Ant Group erprobt wurde, bietet der Community eine robuste, reproduzierbare und skalierbare Plattform, um die AGC-Forschung in Richtung realistischen Einsatzes voranzutreiben. Der Code und die Ressourcen sind öffentlich verfügbar über GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) und Dokumentation (https://pyagc.readthedocs.io).
English
Attributed Graph Clustering (AGC) is a fundamental unsupervised task that integrates structural topology and node attributes to uncover latent patterns in graph-structured data. Despite its significance in industrial applications such as fraud detection and user segmentation, a significant chasm persists between academic research and real-world deployment. Current evaluation protocols suffer from the small-scale, high-homophily citation datasets, non-scalable full-batch training paradigms, and a reliance on supervised metrics that fail to reflect performance in label-scarce environments. To bridge these gaps, we present PyAGC, a comprehensive, production-ready benchmark and library designed to stress-test AGC methods across diverse scales and structural properties. We unify existing methodologies into a modular Encode-Cluster-Optimize framework and, for the first time, provide memory-efficient, mini-batch implementations for a wide array of state-of-the-art AGC algorithms. Our benchmark curates 12 diverse datasets, ranging from 2.7K to 111M nodes, specifically incorporating industrial graphs with complex tabular features and low homophily. Furthermore, we advocate for a holistic evaluation protocol that mandates unsupervised structural metrics and efficiency profiling alongside traditional supervised metrics. Battle-tested in high-stakes industrial workflows at Ant Group, this benchmark offers the community a robust, reproducible, and scalable platform to advance AGC research towards realistic deployment. The code and resources are publicly available via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc), and Documentation (https://pyagc.readthedocs.io).
PDF11February 12, 2026