Ponte entre a Academia e a Indústria: Um Benchmark Abrangente para Agrupamento de Grafos com Atributos

Resumo

O Agrupamento de Grafos com Atributos (AGC) é uma tarefa fundamental não supervisionada que integra a topologia estrutural e os atributos dos nós para revelar padrões latentes em dados estruturados em grafos. Apesar de sua importância em aplicações industriais como detecção de fraudes e segmentação de usuários, um abismo significativo persiste entre a pesquisa acadêmica e a implantação no mundo real. Os protocolos de avaliação atuais sofrem com conjuntos de dados de citações de pequena escala e alta homofilia, paradigmas de treinamento em lote completo não escaláveis e uma dependência de métricas supervisionadas que não refletem o desempenho em ambientes com escassez de rótulos. Para preencher essas lacunas, apresentamos o PyAGC, uma biblioteca e benchmark abrangente e pronto para produção, projetado para testar rigorosamente métodos de AGC em diversas escalas e propriedades estruturais. Unificamos metodologias existentes em uma estrutura modular Codificar-Agrupamento-Otimizar e, pela primeira vez, fornecemos implementações eficientes em memória, com mini-lotes, para uma ampla gama de algoritmos state-of-the-art de AGC. Nosso benchmark reúne 12 conjuntos de dados diversos, variando de 2,7K a 111M de nós, incorporando especificamente grafos industriais com características tabulares complexas e baixa homofilia. Além disso, defendemos um protocolo de avaliação holístico que exige métricas estruturais não supervisionadas e análise de eficiência, juntamente com métricas supervisionadas tradicionais. Testado em fluxos de trabalho industriais de alto risco no Ant Group, este benchmark oferece à comunidade uma plataforma robusta, reproduzível e escalável para avançar a pesquisa em AGC em direção a uma implantação realista. O código e os recursos estão publicamente disponíveis via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) e Documentação (https://pyagc.readthedocs.io).

English

Attributed Graph Clustering (AGC) is a fundamental unsupervised task that integrates structural topology and node attributes to uncover latent patterns in graph-structured data. Despite its significance in industrial applications such as fraud detection and user segmentation, a significant chasm persists between academic research and real-world deployment. Current evaluation protocols suffer from the small-scale, high-homophily citation datasets, non-scalable full-batch training paradigms, and a reliance on supervised metrics that fail to reflect performance in label-scarce environments. To bridge these gaps, we present PyAGC, a comprehensive, production-ready benchmark and library designed to stress-test AGC methods across diverse scales and structural properties. We unify existing methodologies into a modular Encode-Cluster-Optimize framework and, for the first time, provide memory-efficient, mini-batch implementations for a wide array of state-of-the-art AGC algorithms. Our benchmark curates 12 diverse datasets, ranging from 2.7K to 111M nodes, specifically incorporating industrial graphs with complex tabular features and low homophily. Furthermore, we advocate for a holistic evaluation protocol that mandates unsupervised structural metrics and efficiency profiling alongside traditional supervised metrics. Battle-tested in high-stakes industrial workflows at Ant Group, this benchmark offers the community a robust, reproducible, and scalable platform to advance AGC research towards realistic deployment. The code and resources are publicly available via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc), and Documentation (https://pyagc.readthedocs.io).