ChatPaper.aiChatPaper

TopoPerception : Une évaluation sans raccourci de la perception visuelle globale dans les grands modèles de vision et de langage

TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models

November 14, 2025
papers.authors: Wenhao Zhou, Hao Zheng, Rong Zhao
cs.AI

papers.abstract

Les grands modèles vision-langage (LVLM) alignent généralement les caractéristiques visuelles d'un encodeur avec un modèle de langage de grande taille (LLM) pré-entraîné. Cependant, cela rend le module de perception visuelle un goulot d'étranglement, limitant les capacités globales des LVLM. Les benchmarks d'évaluation conventionnels, bien que riches en sémantique visuelle, contiennent souvent des raccourcis locaux inévitables qui peuvent conduire à une surestimation des capacités perceptuelles des modèles. Nous présentons ici TopoPerception, un benchmark qui exploite les propriétés topologiques pour évaluer rigoureusement les capacités de perception visuelle globale des LVLM à différentes granularités. Comme la topologie dépend de la structure globale d'une image et est invariante aux caractéristiques locales, TopoPerception permet une évaluation sans raccourci de la perception globale, la distinguant fondamentalement des tâches sémantiquement riches. Nous évaluons les modèles de pointe sur TopoPerception et constatons que même à la granularité perceptuelle la plus grossière, tous les modèles ne font pas mieux qu'un choix aléatoire, indiquant une incapacité profonde à percevoir les caractéristiques visuelles globales. Notamment, une tendance constante émerge au sein des familles de modèles : les modèles plus puissants avec des capacités de raisonnement plus fortes présentent une précision plus faible. Cela suggère que simplement augmenter la taille des modèles est insuffisant pour combler ce déficit et pourrait même l'aggraver. Des progrès pourraient nécessiter de nouveaux paradigmes d'entraînement ou architectures. TopoPerception expose non seulement un goulot d'étranglement critique dans les LVLM actuels, mais offre également une perspective et une direction pour améliorer leur perception visuelle globale. Les données et le code sont disponibles publiquement à l'adresse : https://github.com/Wenhao-Zhou/TopoPerception.
English
Large Vision-Language Models (LVLMs) typically align visual features from an encoder with a pre-trained Large Language Model (LLM). However, this makes the visual perception module a bottleneck, which constrains the overall capabilities of LVLMs. Conventional evaluation benchmarks, while rich in visual semantics, often contain unavoidable local shortcuts that can lead to an overestimation of models' perceptual abilities. Here, we introduce TopoPerception, a benchmark that leverages topological properties to rigorously evaluate the global visual perception capabilities of LVLMs across various granularities. Since topology depends on the global structure of an image and is invariant to local features, TopoPerception enables a shortcut-free assessment of global perception, fundamentally distinguishing it from semantically rich tasks. We evaluate state-of-the-art models on TopoPerception and find that even at the coarsest perceptual granularity, all models perform no better than random chance, indicating a profound inability to perceive global visual features. Notably, a consistent trend emerge within model families: more powerful models with stronger reasoning capabilities exhibit lower accuracy. This suggests that merely scaling up models is insufficient to address this deficit and may even exacerbate it. Progress may require new training paradigms or architectures. TopoPerception not only exposes a critical bottleneck in current LVLMs but also offers a lens and direction for improving their global visual perception. The data and code are publicly available at: https://github.com/Wenhao-Zhou/TopoPerception.
PDF12December 1, 2025