ChatPaper.aiChatPaper

TopoPercepción: Una Evaluación Libre de Atajos de la Percepción Visual Global en Grandes Modelos de Visión y Lenguaje

TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models

November 14, 2025
Autores: Wenhao Zhou, Hao Zheng, Rong Zhao
cs.AI

Resumen

Los Modelos Grandes de Visión y Lenguaje (LVLM) suelen alinear características visuales de un codificador con un Modelo de Lenguaje Grande (LLM) preentrenado. Sin embargo, esto convierte al módulo de percepción visual en un cuello de botella, lo que restringe las capacidades generales de los LVLM. Los puntos de referencia de evaluación convencionales, aunque ricos en semántica visual, a menudo contienen atajos locales inevitables que pueden llevar a una sobreestimación de las habilidades perceptivas de los modelos. Aquí presentamos TopoPerception, un punto de referencia que aprovecha las propiedades topológicas para evaluar rigurosamente las capacidades de percepción visual global de los LVLM en varias granularidades. Dado que la topología depende de la estructura global de una imagen y es invariante a las características locales, TopoPerception permite una evaluación libre de atajos de la percepción global, distinguiéndose fundamentalmente de las tareas semánticamente ricas. Evaluamos modelos de última generación en TopoPerception y encontramos que incluso en la granularidad perceptual más gruesa, todos los modelos no superan el azar, lo que indica una profunda incapacidad para percibir características visuales globales. Notablemente, surge una tendencia consistente dentro de las familias de modelos: los modelos más potentes con capacidades de razonamiento más fuertes exhiben una precisión menor. Esto sugiere que simplemente escalar los modelos es insuficiente para abordar este déficit e incluso puede exacerbarlo. El progreso puede requerir nuevos paradigmas de entrenamiento o arquitecturas. TopoPerception no solo expone un cuello de botella crítico en los LVLM actuales, sino que también ofrece una perspectiva y una dirección para mejorar su percepción visual global. Los datos y el código están disponibles públicamente en: https://github.com/Wenhao-Zhou/TopoPerception.
English
Large Vision-Language Models (LVLMs) typically align visual features from an encoder with a pre-trained Large Language Model (LLM). However, this makes the visual perception module a bottleneck, which constrains the overall capabilities of LVLMs. Conventional evaluation benchmarks, while rich in visual semantics, often contain unavoidable local shortcuts that can lead to an overestimation of models' perceptual abilities. Here, we introduce TopoPerception, a benchmark that leverages topological properties to rigorously evaluate the global visual perception capabilities of LVLMs across various granularities. Since topology depends on the global structure of an image and is invariant to local features, TopoPerception enables a shortcut-free assessment of global perception, fundamentally distinguishing it from semantically rich tasks. We evaluate state-of-the-art models on TopoPerception and find that even at the coarsest perceptual granularity, all models perform no better than random chance, indicating a profound inability to perceive global visual features. Notably, a consistent trend emerge within model families: more powerful models with stronger reasoning capabilities exhibit lower accuracy. This suggests that merely scaling up models is insufficient to address this deficit and may even exacerbate it. Progress may require new training paradigms or architectures. TopoPerception not only exposes a critical bottleneck in current LVLMs but also offers a lens and direction for improving their global visual perception. The data and code are publicly available at: https://github.com/Wenhao-Zhou/TopoPerception.
PDF12December 1, 2025