ChatPaper.aiChatPaper

Le pouvoir sous-estimé des modèles de vision pour la compréhension structurelle des graphes

The Underappreciated Power of Vision Models for Graph Structural Understanding

October 27, 2025
papers.authors: Xinjian Zhao, Wei Pang, Zhongkai Xue, Xiangru Jian, Lei Zhang, Yaoyao Xu, Xiaozhuang Song, Shu Wu, Tianshu Yu
cs.AI

papers.abstract

Les réseaux de neurones graphiques fonctionnent par transmission de messages ascendante, différant fondamentalement de la perception visuelle humaine qui capture intuitivement d'abord les structures globales. Nous étudions le potentiel sous-estimé des modèles de vision pour la compréhension des graphes, constatant qu'ils atteignent des performances comparables aux GNN sur des benchmarks établis tout en présentant des schémas d'apprentissage nettement différents. Ces comportements divergents, combinés aux limitations des benchmarks existants qui confondent caractéristiques du domaine et compréhension topologique, motivent notre introduction de GraphAbstract. Ce benchmark évalue la capacité des modèles à percevoir les propriétés globales des graphes comme le font les humains : reconnaissance d'archétypes organisationnels, détection de symétrie, perception de la force de connectivité et identification d'éléments critiques. Nos résultats révèlent que les modèles de vision surpassent significativement les GNN sur les tâches nécessitant une compréhension structurelle holistique et maintiennent une généralisabilité across différentes échelles de graphes, tandis que les GNN peinent avec l'abstraction de motifs globaux et voient leurs performances se dégrader avec l'augmentation de la taille des graphes. Ce travail démontre que les modèles de vision possèdent des capacités remarquables mais sous-utilisées pour la compréhension structurelle des graphes, particulièrement pour les problèmes nécessitant une conscience topologique globale et un raisonnement invariant à l'échelle. Ces résultats ouvrent de nouvelles voies pour exploiter ce potentiel sous-estimé afin de développer des modèles fondamentaux pour les graphes plus efficaces pour les tâches dominées par la reconnaissance holistique de motifs.
English
Graph Neural Networks operate through bottom-up message-passing, fundamentally differing from human visual perception, which intuitively captures global structures first. We investigate the underappreciated potential of vision models for graph understanding, finding they achieve performance comparable to GNNs on established benchmarks while exhibiting distinctly different learning patterns. These divergent behaviors, combined with limitations of existing benchmarks that conflate domain features with topological understanding, motivate our introduction of GraphAbstract. This benchmark evaluates models' ability to perceive global graph properties as humans do: recognizing organizational archetypes, detecting symmetry, sensing connectivity strength, and identifying critical elements. Our results reveal that vision models significantly outperform GNNs on tasks requiring holistic structural understanding and maintain generalizability across varying graph scales, while GNNs struggle with global pattern abstraction and degrade with increasing graph size. This work demonstrates that vision models possess remarkable yet underutilized capabilities for graph structural understanding, particularly for problems requiring global topological awareness and scale-invariant reasoning. These findings open new avenues to leverage this underappreciated potential for developing more effective graph foundation models for tasks dominated by holistic pattern recognition.
PDF355January 19, 2026