ChatPaper.aiChatPaper

Связывая академию и индустрию: всеобъемлющий бенчмарк для кластеризации атрибутированных графов

Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering

February 9, 2026
Авторы: Yunhui Liu, Pengyu Qiu, Yu Xing, Yongchao Liu, Peng Du, Chuntao Hong, Jiajun Zheng, Tao Zheng, Tieke He
cs.AI

Аннотация

Кластеризация атрибутивных графов (AGC) — это фундаментальная неконтролируемая задача, которая интегрирует структурную топологию и атрибуты узлов для выявления скрытых паттернов в графовых данных. Несмотря на свою важность в промышленных приложениях, таких как обнаружение мошенничества и сегментация пользователей, между академическими исследованиями и реальным внедрением сохраняется значительный разрыв. Современные протоколы оценки страдают от использования маломасштабных цитатных наборов данных с высокой гомофилией, не масштабируемых парадигм обучения на полных батчах и зависимости от контролируемых метрик, которые не отражают производительность в условиях нехватки меток. Для преодоления этих пробелов мы представляем PyAGC — комплексный, готовый к эксплуатации бенчмарк и библиотеку, предназначенные для стресс-тестирования методов AGC в различных масштабах и при различных структурных свойствах. Мы объединяем существующие методики в модульную структуру Encode-Cluster-Optimize и впервые предоставляем эффективные по памяти реализации с мини-батчами для широкого спектра современных алгоритмов AGC. Наш бенчмарк включает 12 разнообразных наборов данных, от 2.7 тыс. до 111 млн узлов, специально включая промышленные графы со сложными табличными признаками и низкой гомофилией. Кроме того, мы предлагаем целостный протокол оценки, который наряду с традиционными контролируемыми метриками требует использования неконтролируемых структурных метрик и профилирования эффективности. Протестированный в ответственных промышленных процессах Ant Group, этот бенчмарк предлагает сообществу надежную, воспроизводимую и масштабируемую платформу для продвижения исследований AGC в сторону реального внедрения. Код и ресурсы общедоступны через GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) и документацию (https://pyagc.readthedocs.io).
English
Attributed Graph Clustering (AGC) is a fundamental unsupervised task that integrates structural topology and node attributes to uncover latent patterns in graph-structured data. Despite its significance in industrial applications such as fraud detection and user segmentation, a significant chasm persists between academic research and real-world deployment. Current evaluation protocols suffer from the small-scale, high-homophily citation datasets, non-scalable full-batch training paradigms, and a reliance on supervised metrics that fail to reflect performance in label-scarce environments. To bridge these gaps, we present PyAGC, a comprehensive, production-ready benchmark and library designed to stress-test AGC methods across diverse scales and structural properties. We unify existing methodologies into a modular Encode-Cluster-Optimize framework and, for the first time, provide memory-efficient, mini-batch implementations for a wide array of state-of-the-art AGC algorithms. Our benchmark curates 12 diverse datasets, ranging from 2.7K to 111M nodes, specifically incorporating industrial graphs with complex tabular features and low homophily. Furthermore, we advocate for a holistic evaluation protocol that mandates unsupervised structural metrics and efficiency profiling alongside traditional supervised metrics. Battle-tested in high-stakes industrial workflows at Ant Group, this benchmark offers the community a robust, reproducible, and scalable platform to advance AGC research towards realistic deployment. The code and resources are publicly available via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc), and Documentation (https://pyagc.readthedocs.io).
PDF11February 12, 2026