ChatPaper.aiChatPaper

TopoPerception: Een evaluatie zonder shortcuts van het globale visuele perceptievermogen van grote vision-language-modellen

TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models

November 14, 2025
Auteurs: Wenhao Zhou, Hao Zheng, Rong Zhao
cs.AI

Samenvatting

Grote Vision-Language Modellen (LVLMs) aligneren doorgaans visuele kenmerken van een encoder met een vooraf getraind Groot Taalmodel (LLM). Hierdoor wordt echter de visuele perceptiemodule een knelpunt, wat de algehele capaciteiten van LVLMs beperkt. Conventionele evaluatiebenchmarks, hoewel rijk aan visuele semantiek, bevatten vaak onvermijdelijke lokale shortcuts die kunnen leiden tot een overschatting van de perceptuele vermogens van modellen. Hier introduceren we TopoPerception, een benchmark die topologische eigenschappen benut om de globale visuele perceptiecapaciteiten van LVLMs op verschillende granulariteiten rigoureus te evalueren. Omdat topologie afhangt van de globale structuur van een afbeelding en invariant is voor lokale kenmerken, stelt TopoPerception een shortcut-vrije beoordeling van globale perceptie mogelijk, wat het fundamenteel onderscheidt van semantisch rijke taken. We evalueren state-of-the-art modellen op TopoPerception en constateren dat zelfs op de grofste perceptuele granulariteit alle modellen niet beter presteren dan willekeurige kans, wat duidt op een diepgaand onvermogen om globale visuele kenmerken waar te nemen. Opmerkelijk is dat er binnen modelfamilies een consistente trend naar voren komt: krachtigere modellen met sterkere redeneervermogens vertonen een lagere nauwkeurigheid. Dit suggereert dat het simpelweg opschalen van modellen onvoldoende is om dit tekort aan te pakken en het zelfs kan verergeren. Vooruitgang kan nieuwe trainingsparadigma's of architecturen vereisen. TopoPerception legt niet alleen een kritiek knelpunt in huidige LVLMs bloot, maar biedt ook een lens en richting voor het verbeteren van hun globale visuele perceptie. De data en code zijn openbaar beschikbaar op: https://github.com/Wenhao-Zhou/TopoPerception.
English
Large Vision-Language Models (LVLMs) typically align visual features from an encoder with a pre-trained Large Language Model (LLM). However, this makes the visual perception module a bottleneck, which constrains the overall capabilities of LVLMs. Conventional evaluation benchmarks, while rich in visual semantics, often contain unavoidable local shortcuts that can lead to an overestimation of models' perceptual abilities. Here, we introduce TopoPerception, a benchmark that leverages topological properties to rigorously evaluate the global visual perception capabilities of LVLMs across various granularities. Since topology depends on the global structure of an image and is invariant to local features, TopoPerception enables a shortcut-free assessment of global perception, fundamentally distinguishing it from semantically rich tasks. We evaluate state-of-the-art models on TopoPerception and find that even at the coarsest perceptual granularity, all models perform no better than random chance, indicating a profound inability to perceive global visual features. Notably, a consistent trend emerge within model families: more powerful models with stronger reasoning capabilities exhibit lower accuracy. This suggests that merely scaling up models is insufficient to address this deficit and may even exacerbate it. Progress may require new training paradigms or architectures. TopoPerception not only exposes a critical bottleneck in current LVLMs but also offers a lens and direction for improving their global visual perception. The data and code are publicly available at: https://github.com/Wenhao-Zhou/TopoPerception.
PDF12December 1, 2025