Collegare Accademia e Industria: Un Benchmark Completo per il Clustering di Grafi Attribuiti

Abstract

La Clusterizzazione di Grafi con Attributi (AGC) è un compito fondamentale di apprendimento non supervisionato che integra la topologia strutturale e gli attributi dei nodi per scoprire pattern latenti nei dati strutturati a grafo. Nonostante la sua importanza in applicazioni industriali come il rilevamento di frodi e la segmentazione degli utenti, persiste un divario significativo tra la ricerca accademica e l'implementazione nel mondo reale. I protocolli di valutazione attuali soffrono di dataset di citazioni di piccola scala e alta omofilia, paradigmi di addestramento full-batch non scalabili e una dipendenza da metriche supervisionate che non riflettono le prestazioni in ambienti con scarsità di etichette. Per colmare queste lacune, presentiamo PyAGC, un benchmark e una libreria completi e pronti per la produzione, progettati per stressare i metodi AGC su diverse scale e proprietà strutturali. Unifichiamo le metodologie esistenti in un framework modulare Encode-Cluster-Optimize e, per la prima volta, forniamo implementazioni memory-efficient e mini-batch per una vasta gamma di algoritmi AGC all'avanguardia. Il nostro benchmark raccoglie 12 dataset diversificati, che vanno da 2.7K a 111M nodi, incorporando specificamente grafi industriali con caratteristiche tabellari complesse e bassa omofilia. Inoltre, sosteniamo un protocollo di valutazione olistico che impone metriche strutturali non supervisionate e profilazione dell'efficienza insieme alle tradizionali metriche supervisionate. Testato in workflow industriali ad alto rischio presso Ant Group, questo benchmark offre alla comunità una piattaforma robusta, riproducibile e scalabile per far progredire la ricerca AGC verso un'implementazione realistica. Il codice e le risorse sono pubblicamente disponibili tramite GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) e Documentazione (https://pyagc.readthedocs.io).

English

Attributed Graph Clustering (AGC) is a fundamental unsupervised task that integrates structural topology and node attributes to uncover latent patterns in graph-structured data. Despite its significance in industrial applications such as fraud detection and user segmentation, a significant chasm persists between academic research and real-world deployment. Current evaluation protocols suffer from the small-scale, high-homophily citation datasets, non-scalable full-batch training paradigms, and a reliance on supervised metrics that fail to reflect performance in label-scarce environments. To bridge these gaps, we present PyAGC, a comprehensive, production-ready benchmark and library designed to stress-test AGC methods across diverse scales and structural properties. We unify existing methodologies into a modular Encode-Cluster-Optimize framework and, for the first time, provide memory-efficient, mini-batch implementations for a wide array of state-of-the-art AGC algorithms. Our benchmark curates 12 diverse datasets, ranging from 2.7K to 111M nodes, specifically incorporating industrial graphs with complex tabular features and low homophily. Furthermore, we advocate for a holistic evaluation protocol that mandates unsupervised structural metrics and efficiency profiling alongside traditional supervised metrics. Battle-tested in high-stakes industrial workflows at Ant Group, this benchmark offers the community a robust, reproducible, and scalable platform to advance AGC research towards realistic deployment. The code and resources are publicly available via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc), and Documentation (https://pyagc.readthedocs.io).

Collegare Accademia e Industria: Un Benchmark Completo per il Clustering di Grafi Attribuiti

Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering

Abstract

Support