TopoPerception: Eine pfadfreie Bewertung der globalen visuellen Wahrnehmung in großen Vision-Sprach-Modellen
TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models
November 14, 2025
papers.authors: Wenhao Zhou, Hao Zheng, Rong Zhao
cs.AI
papers.abstract
Große Vision-Sprach-Modelle (LVLMs) richten typischerweise visuelle Merkmale aus einem Encoder an einem vortrainierten Großsprachmodell (LLM) aus. Dadurch wird jedoch das visuelle Wahrnehmungsmodul zu einem Engpass, der die Gesamtfähigkeiten von LVLMs einschränkt. Konventionelle Evaluierungs-Benchmarks, obwohl reich an visueller Semantik, enthalten oft unvermeidbare lokale Abkürzungen, die zu einer Überschätzung der Wahrnehmungsfähigkeiten von Modellen führen können. Hier stellen wir TopoPerception vor, einen Benchmark, der topologische Eigenschaften nutzt, um die globalen visuellen Wahrnehmungsfähigkeiten von LVLMs über verschiedene Granularitäten hinweg rigoros zu bewerten. Da Topologie von der globalen Struktur eines Bildes abhängt und invariant gegenüber lokalen Merkmalen ist, ermöglicht TopoPerception eine abkürzungsfreie Bewertung der globalen Wahrnehmung, was ihn grundlegend von semantisch reichen Aufgaben unterscheidet. Wir evaluieren state-of-the-art Modelle mit TopoPerception und stellen fest, dass selbst bei der gröbsten Wahrnehmungsgranularität alle Modelle nicht besser als zufälliges Raten abschneiden, was auf ein tiefgreifendes Unvermögen hinweist, globale visuelle Merkmale zu erfassen. Bemerkenswerterweise zeigt sich ein konsistenter Trend innerhalb von Modellfamilien: leistungsstärkere Modelle mit besseren Reasoning-Fähigkeiten weisen eine geringere Genauigkeit auf. Dies deutet darauf hin, dass reine Skalierung von Modellen unzureichend ist, um dieses Defizit zu beheben, und es sogar verschärfen könnte. Fortschritt könnte neue Trainingsparadigmen oder Architekturen erfordern. TopoPerception legt nicht nur einen kritischen Engpass aktueller LVLMs offen, sondern bietet auch eine Perspektive und Richtung zur Verbesserung ihrer globalen visuellen Wahrnehmung. Die Daten und der Code sind öffentlich verfügbar unter: https://github.com/Wenhao-Zhou/TopoPerception.
English
Large Vision-Language Models (LVLMs) typically align visual features from an encoder with a pre-trained Large Language Model (LLM). However, this makes the visual perception module a bottleneck, which constrains the overall capabilities of LVLMs. Conventional evaluation benchmarks, while rich in visual semantics, often contain unavoidable local shortcuts that can lead to an overestimation of models' perceptual abilities. Here, we introduce TopoPerception, a benchmark that leverages topological properties to rigorously evaluate the global visual perception capabilities of LVLMs across various granularities. Since topology depends on the global structure of an image and is invariant to local features, TopoPerception enables a shortcut-free assessment of global perception, fundamentally distinguishing it from semantically rich tasks. We evaluate state-of-the-art models on TopoPerception and find that even at the coarsest perceptual granularity, all models perform no better than random chance, indicating a profound inability to perceive global visual features. Notably, a consistent trend emerge within model families: more powerful models with stronger reasoning capabilities exhibit lower accuracy. This suggests that merely scaling up models is insufficient to address this deficit and may even exacerbate it. Progress may require new training paradigms or architectures. TopoPerception not only exposes a critical bottleneck in current LVLMs but also offers a lens and direction for improving their global visual perception. The data and code are publicly available at: https://github.com/Wenhao-Zhou/TopoPerception.