Le pouvoir sous-estimé des modèles de vision pour la compréhension structurelle des graphes
The Underappreciated Power of Vision Models for Graph Structural Understanding
October 27, 2025
papers.authors: Xinjian Zhao, Wei Pang, Zhongkai Xue, Xiangru Jian, Lei Zhang, Yaoyao Xu, Xiaozhuang Song, Shu Wu, Tianshu Yu
cs.AI
papers.abstract
Les réseaux de neurones graphiques fonctionnent par transmission de messages ascendante,
différant fondamentalement de la perception visuelle humaine qui capture intuitivement
d'abord les structures globales. Nous étudions le potentiel sous-estimé des modèles de vision
pour la compréhension des graphes, constatant qu'ils atteignent des performances comparables
aux GNN sur des benchmarks établis tout en présentant des schémas d'apprentissage nettement
différents. Ces comportements divergents, combinés aux limitations des benchmarks existants
qui confondent caractéristiques du domaine et compréhension topologique, motivent notre
introduction de GraphAbstract. Ce benchmark évalue la capacité des modèles à percevoir les
propriétés globales des graphes comme le font les humains : reconnaissance d'archétypes
organisationnels, détection de symétrie, perception de la force de connectivité et
identification d'éléments critiques. Nos résultats révèlent que les modèles de vision
surpassent significativement les GNN sur les tâches nécessitant une compréhension structurelle
holistique et maintiennent une généralisabilité across différentes échelles de graphes,
tandis que les GNN peinent avec l'abstraction de motifs globaux et voient leurs performances
se dégrader avec l'augmentation de la taille des graphes. Ce travail démontre que les modèles
de vision possèdent des capacités remarquables mais sous-utilisées pour la compréhension
structurelle des graphes, particulièrement pour les problèmes nécessitant une conscience
topologique globale et un raisonnement invariant à l'échelle. Ces résultats ouvrent de
nouvelles voies pour exploiter ce potentiel sous-estimé afin de développer des modèles
fondamentaux pour les graphes plus efficaces pour les tâches dominées par la reconnaissance
holistique de motifs.
English
Graph Neural Networks operate through bottom-up message-passing,
fundamentally differing from human visual perception, which intuitively
captures global structures first. We investigate the underappreciated potential
of vision models for graph understanding, finding they achieve performance
comparable to GNNs on established benchmarks while exhibiting distinctly
different learning patterns. These divergent behaviors, combined with
limitations of existing benchmarks that conflate domain features with
topological understanding, motivate our introduction of GraphAbstract. This
benchmark evaluates models' ability to perceive global graph properties as
humans do: recognizing organizational archetypes, detecting symmetry, sensing
connectivity strength, and identifying critical elements. Our results reveal
that vision models significantly outperform GNNs on tasks requiring holistic
structural understanding and maintain generalizability across varying graph
scales, while GNNs struggle with global pattern abstraction and degrade with
increasing graph size. This work demonstrates that vision models possess
remarkable yet underutilized capabilities for graph structural understanding,
particularly for problems requiring global topological awareness and
scale-invariant reasoning. These findings open new avenues to leverage this
underappreciated potential for developing more effective graph foundation
models for tasks dominated by holistic pattern recognition.