TopoPerception: 대규모 시각-언어 모델의 전역 시각 인지 능력에 대한 단축 경로 편향 없는 평가
TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models
November 14, 2025
저자: Wenhao Zhou, Hao Zheng, Rong Zhao
cs.AI
초록
대규모 시각-언어 모델(LVLM)은 일반적으로 인코더에서 추출한 시각적 특성을 사전 훈련된 대규모 언어 모델(LLM)과 정렬합니다. 그러나 이로 인해 시각 인식 모듈이 병목 현상이 되어 LVLM의 전반적 능력을 제한하게 됩니다. 기존 평가 벤치마크는 시각적 의미론이 풍부하지만, 모델의 인식 능력을 과대평가할 수 있는 불가피한 지역적 단축 경로를 종종 포함합니다. 본 연구에서는 위상적 특성을 활용하여 다양한 세분화 수준에서 LVLM의 전역 시각 인식 능력을 엄격하게 평가하는 벤치마크인 TopoPerception을 소개합니다. 위상학은 이미지의 전역 구조에 의존하며 지역적 특성에 불변하기 때문에, TopoPerception은 단축 경로가 없는 전역 인식 평가를 가능하게 하여 의미론적으로 풍부한 작업과 근본적으로 차별화됩니다. 우리는 TopoPerception을 통해 최첨단 모델들을 평가했으며, 가장 낮은 인식 세분화 수준에서도 모든 모델이 무작위 추론 수준을 넘지 못해 전역 시각 특성을 인식하는 능력이 심각하게 부족함을 확인했습니다. 특히, 모델 계열 내에서 일관된 경향이 관찰되었습니다: 더 강력한 추론 능력을 가진 모델일수록 정확도가 더 낮았습니다. 이는 단순히 모델 규모를 확장하는 것만으로는 이 결함을 해결하기에 부족하며 오히려 악화시킬 수 있음을 시사합니다. 진전을 위해서는 새로운 훈련 패러다임이나 아키텍처가 필요할 수 있습니다. TopoPerception은 현재 LVLM의 치명적인 병목 현상을 드러낼 뿐만 아니라, 그들의 전역 시각 인식 능력을 개선하기 위한 관점과 방향을 제시합니다. 데이터와 코드는 https://github.com/Wenhao-Zhou/TopoPerception 에 공개되어 있습니다.
English
Large Vision-Language Models (LVLMs) typically align visual features from an encoder with a pre-trained Large Language Model (LLM). However, this makes the visual perception module a bottleneck, which constrains the overall capabilities of LVLMs. Conventional evaluation benchmarks, while rich in visual semantics, often contain unavoidable local shortcuts that can lead to an overestimation of models' perceptual abilities. Here, we introduce TopoPerception, a benchmark that leverages topological properties to rigorously evaluate the global visual perception capabilities of LVLMs across various granularities. Since topology depends on the global structure of an image and is invariant to local features, TopoPerception enables a shortcut-free assessment of global perception, fundamentally distinguishing it from semantically rich tasks. We evaluate state-of-the-art models on TopoPerception and find that even at the coarsest perceptual granularity, all models perform no better than random chance, indicating a profound inability to perceive global visual features. Notably, a consistent trend emerge within model families: more powerful models with stronger reasoning capabilities exhibit lower accuracy. This suggests that merely scaling up models is insufficient to address this deficit and may even exacerbate it. Progress may require new training paradigms or architectures. TopoPerception not only exposes a critical bottleneck in current LVLMs but also offers a lens and direction for improving their global visual perception. The data and code are publicly available at: https://github.com/Wenhao-Zhou/TopoPerception.