Il Potenziale Sottovalutato dei Modelli Visivi per la Comprensione Strutturale dei Grafi

Abstract

Le Reti Neurali su Grafi operano attraverso un meccanismo di passaggio di messaggi dal basso verso l'alto, differendo fondamentalmente dalla percezione visiva umana, che cattura intuitivamente prima le strutture globali. Indaghiamo il potenziale sottovalutato dei modelli visivi per la comprensione dei grafi, riscontrando che essi raggiungono prestazioni comparabili alle GNN su benchmark consolidati, pur mostrando pattern di apprendimento chiaramente differenti. Questi comportamenti divergenti, combinati con i limiti dei benchmark esistenti che confondono le caratteristiche del dominio con la comprensione topologica, motivano la nostra introduzione di GraphAbstract. Questo benchmark valuta la capacità dei modelli di percepire le proprietà globali dei grafi come fanno gli esseri umani: riconoscere archetipi organizzativi, rilevare simmetrie, percepire la forza della connettività e identificare elementi critici. I nostri risultati rivelano che i modelli visivi superano significativamente le GNN in compiti che richiedono una comprensione strutturale olistica e mantengono generalizzabilità su scale di grafi variabili, mentre le GNN faticano nell'astrazione di pattern globali e peggiorano con l'aumentare della dimensione del grafo. Questo lavoro dimostra che i modelli visivi possiedono capacità notevoli ma sottoutilizzate per la comprensione strutturale dei grafi, in particolare per problemi che richiedono consapevolezza topologica globale e ragionamento invariante alla scala. Questi risultati aprono nuove strade per sfruttare questo potenziale sottovalutato per sviluppare modelli di fondazione per grafi più efficaci in compiti dominati dal riconoscimento olistico di pattern.

English

Graph Neural Networks operate through bottom-up message-passing, fundamentally differing from human visual perception, which intuitively captures global structures first. We investigate the underappreciated potential of vision models for graph understanding, finding they achieve performance comparable to GNNs on established benchmarks while exhibiting distinctly different learning patterns. These divergent behaviors, combined with limitations of existing benchmarks that conflate domain features with topological understanding, motivate our introduction of GraphAbstract. This benchmark evaluates models' ability to perceive global graph properties as humans do: recognizing organizational archetypes, detecting symmetry, sensing connectivity strength, and identifying critical elements. Our results reveal that vision models significantly outperform GNNs on tasks requiring holistic structural understanding and maintain generalizability across varying graph scales, while GNNs struggle with global pattern abstraction and degrade with increasing graph size. This work demonstrates that vision models possess remarkable yet underutilized capabilities for graph structural understanding, particularly for problems requiring global topological awareness and scale-invariant reasoning. These findings open new avenues to leverage this underappreciated potential for developing more effective graph foundation models for tasks dominated by holistic pattern recognition.

Il Potenziale Sottovalutato dei Modelli Visivi per la Comprensione Strutturale dei Grafi

The Underappreciated Power of Vision Models for Graph Structural Understanding

Abstract

Support