비전 모델의 그래프 구조 이해에 대한 과소평가된 능력
The Underappreciated Power of Vision Models for Graph Structural Understanding
October 27, 2025
저자: Xinjian Zhao, Wei Pang, Zhongkai Xue, Xiangru Jian, Lei Zhang, Yaoyao Xu, Xiaozhuang Song, Shu Wu, Tianshu Yu
cs.AI
초록
그래프 신경망은 하향식 메시지 전달 방식으로 작동하며, 직관적으로 전역 구조를 먼저 포착하는 인간의 시각 인식과 근본적으로 다릅니다. 우리는 그래프 이해를 위한 비전 모델의 저평가된 잠재력을 조사했으며, 이들이 기존 벤치마크에서 GNN에 버금가는 성능을 달성하면서도 뚜렷이 다른 학습 패턴을 보인다는 사실을 발견했습니다. 이러한 상이한 행동 양상과, 도메인 특성과 위상적 이해를 혼동하는 기존 벤치마크의 한계를 바탕으로 우리는 GraphAbstract를 도입했습니다. 이 벤치마크는 인간처럼 조직 원형을 인식하고, 대칭성을 탐지하며, 연결성 강도를 감지하고, 핵심 요소를 식별하는 등 전역 그래프 속성을 인지하는 모델의 능력을 평가합니다. 우리의 결과는 비전 모델이 전체론적 구조 이해가 필요한 작업에서 GNN을 크게 능가하며 다양한 그래프 규모에 걸쳐 일반화 능력을 유지하는 반면, GNN은 전역 패턴 추상화에 어려움을 겪고 그래프 크기가 증가함에 따라 성능이 저하됨을 보여줍니다. 본 연구는 비전 모델이 특히 전역 위상 인식과 규모 불변 추론이 필요한 문제에 대해 그래프 구조 이해를 위한 놀랍고도 활용되지 않은 능력을 지니고 있음을 입증합니다. 이러한 발견은 전체론적 패턴 인식이 지배적인 과업을 위한 더 효과적인 그래프 파운데이션 모델 개발에 이 저평가된 잠재력을 활용할 새로운 방향을 제시합니다.
English
Graph Neural Networks operate through bottom-up message-passing,
fundamentally differing from human visual perception, which intuitively
captures global structures first. We investigate the underappreciated potential
of vision models for graph understanding, finding they achieve performance
comparable to GNNs on established benchmarks while exhibiting distinctly
different learning patterns. These divergent behaviors, combined with
limitations of existing benchmarks that conflate domain features with
topological understanding, motivate our introduction of GraphAbstract. This
benchmark evaluates models' ability to perceive global graph properties as
humans do: recognizing organizational archetypes, detecting symmetry, sensing
connectivity strength, and identifying critical elements. Our results reveal
that vision models significantly outperform GNNs on tasks requiring holistic
structural understanding and maintain generalizability across varying graph
scales, while GNNs struggle with global pattern abstraction and degrade with
increasing graph size. This work demonstrates that vision models possess
remarkable yet underutilized capabilities for graph structural understanding,
particularly for problems requiring global topological awareness and
scale-invariant reasoning. These findings open new avenues to leverage this
underappreciated potential for developing more effective graph foundation
models for tasks dominated by holistic pattern recognition.