TopoPerception: Uma Avaliação Livre de Atalhos da Percepção Visual Global em Grandes Modelos de Visão e Linguagem

Resumo

Os Grandes Modelos de Visão e Linguagem (LVLMs) normalmente alinham características visuais de um codificador com um Modelo de Linguagem Grande (LLM) pré-treinado. No entanto, isso torna o módulo de percepção visual um gargalo, o que restringe as capacidades gerais dos LVLMs. As benchmarks de avaliação convencionais, embora ricas em semântica visual, frequentemente contêm atalhos locais inevitáveis que podem levar a uma superestimação das habilidades perceptivas dos modelos. Aqui, introduzimos o TopoPerception, uma benchmark que aproveita propriedades topológicas para avaliar rigorosamente as capacidades de percepção visual global dos LVLMs em várias granularidades. Como a topologia depende da estrutura global de uma imagem e é invariante a características locais, o TopoPerception permite uma avaliação livre de atalhos da percepção global, distinguindo-se fundamentalmente de tarefas semanticamente ricas. Avaliamos os modelos state-of-the-art no TopoPerception e descobrimos que mesmo na granularidade perceptual mais grosseira, todos os modelos não performam melhor do que o acaso aleatório, indicando uma profunda incapacidade de perceber características visuais globais. Notavelmente, surge uma tendência consistente dentro das famílias de modelos: modelos mais poderosos com capacidades de raciocínio mais fortes exibem uma precisão menor. Isto sugere que apenas aumentar a escala dos modelos é insuficiente para resolver esta deficiência e pode mesmo exacerbá-la. O progresso pode exigir novos paradigmas de treino ou arquiteturas. O TopoPerception não só expõe um gargalo crítico nos LVLMs atuais, como também oferece uma lente e uma direção para melhorar a sua percepção visual global. Os dados e o código estão publicamente disponíveis em: https://github.com/Wenhao-Zhou/TopoPerception.

English

Large Vision-Language Models (LVLMs) typically align visual features from an encoder with a pre-trained Large Language Model (LLM). However, this makes the visual perception module a bottleneck, which constrains the overall capabilities of LVLMs. Conventional evaluation benchmarks, while rich in visual semantics, often contain unavoidable local shortcuts that can lead to an overestimation of models' perceptual abilities. Here, we introduce TopoPerception, a benchmark that leverages topological properties to rigorously evaluate the global visual perception capabilities of LVLMs across various granularities. Since topology depends on the global structure of an image and is invariant to local features, TopoPerception enables a shortcut-free assessment of global perception, fundamentally distinguishing it from semantically rich tasks. We evaluate state-of-the-art models on TopoPerception and find that even at the coarsest perceptual granularity, all models perform no better than random chance, indicating a profound inability to perceive global visual features. Notably, a consistent trend emerge within model families: more powerful models with stronger reasoning capabilities exhibit lower accuracy. This suggests that merely scaling up models is insufficient to address this deficit and may even exacerbate it. Progress may require new training paradigms or architectures. TopoPerception not only exposes a critical bottleneck in current LVLMs but also offers a lens and direction for improving their global visual perception. The data and code are publicly available at: https://github.com/Wenhao-Zhou/TopoPerception.

TopoPerception: Uma Avaliação Livre de Atalhos da Percepção Visual Global em Grandes Modelos de Visão e Linguagem

TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models

Resumo

Support