Il Potenziale Sottovalutato dei Modelli Visivi per la Comprensione Strutturale dei Grafi
The Underappreciated Power of Vision Models for Graph Structural Understanding
October 27, 2025
Autori: Xinjian Zhao, Wei Pang, Zhongkai Xue, Xiangru Jian, Lei Zhang, Yaoyao Xu, Xiaozhuang Song, Shu Wu, Tianshu Yu
cs.AI
Abstract
Le Reti Neurali su Grafi operano attraverso un meccanismo di passaggio di messaggi dal basso verso l'alto, differendo fondamentalmente dalla percezione visiva umana, che cattura intuitivamente prima le strutture globali. Indaghiamo il potenziale sottovalutato dei modelli visivi per la comprensione dei grafi, riscontrando che essi raggiungono prestazioni comparabili alle GNN su benchmark consolidati, pur mostrando pattern di apprendimento chiaramente differenti. Questi comportamenti divergenti, combinati con i limiti dei benchmark esistenti che confondono le caratteristiche del dominio con la comprensione topologica, motivano la nostra introduzione di GraphAbstract. Questo benchmark valuta la capacità dei modelli di percepire le proprietà globali dei grafi come fanno gli esseri umani: riconoscere archetipi organizzativi, rilevare simmetrie, percepire la forza della connettività e identificare elementi critici. I nostri risultati rivelano che i modelli visivi superano significativamente le GNN in compiti che richiedono una comprensione strutturale olistica e mantengono generalizzabilità su scale di grafi variabili, mentre le GNN faticano nell'astrazione di pattern globali e peggiorano con l'aumentare della dimensione del grafo. Questo lavoro dimostra che i modelli visivi possiedono capacità notevoli ma sottoutilizzate per la comprensione strutturale dei grafi, in particolare per problemi che richiedono consapevolezza topologica globale e ragionamento invariante alla scala. Questi risultati aprono nuove strade per sfruttare questo potenziale sottovalutato per sviluppare modelli di fondazione per grafi più efficaci in compiti dominati dal riconoscimento olistico di pattern.
English
Graph Neural Networks operate through bottom-up message-passing,
fundamentally differing from human visual perception, which intuitively
captures global structures first. We investigate the underappreciated potential
of vision models for graph understanding, finding they achieve performance
comparable to GNNs on established benchmarks while exhibiting distinctly
different learning patterns. These divergent behaviors, combined with
limitations of existing benchmarks that conflate domain features with
topological understanding, motivate our introduction of GraphAbstract. This
benchmark evaluates models' ability to perceive global graph properties as
humans do: recognizing organizational archetypes, detecting symmetry, sensing
connectivity strength, and identifying critical elements. Our results reveal
that vision models significantly outperform GNNs on tasks requiring holistic
structural understanding and maintain generalizability across varying graph
scales, while GNNs struggle with global pattern abstraction and degrade with
increasing graph size. This work demonstrates that vision models possess
remarkable yet underutilized capabilities for graph structural understanding,
particularly for problems requiring global topological awareness and
scale-invariant reasoning. These findings open new avenues to leverage this
underappreciated potential for developing more effective graph foundation
models for tasks dominated by holistic pattern recognition.