TopoPerception: una valutazione senza scorciatoie della percezione visiva globale nei grandi modelli linguistico-visivi
TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models
November 14, 2025
Autori: Wenhao Zhou, Hao Zheng, Rong Zhao
cs.AI
Abstract
I Large Vision-Language Model (LVLM) allineano tipicamente le caratteristiche visive provenienti da un encoder con un Large Language Model (LLM) pre-addestrato. Tuttavia, questo rende il modulo di percezione visiva un collo di bottiglia, che limita le capacità complessive degli LVLM. I benchmark di valutazione convenzionali, sebbene ricchi di semantica visiva, contengono spesso scorciatoie locali inevitabili che possono portare a una sovrastima delle abilità percettive dei modelli. Qui presentiamo TopoPerception, un benchmark che sfrutta le proprietà topologiche per valutare rigorosamente le capacità di percezione visiva globale degli LVLM su varie granularità. Poiché la topologia dipende dalla struttura globale di un'immagine ed è invariante rispetto alle caratteristiche locali, TopoPerception consente una valutazione priva di scorciatoie della percezione globale, distinguendosi fondamentalmente dai compiti semanticamente ricchi. Valutiamo i modelli allo stato dell'arte su TopoPerception e scopriamo che anche alla granularità percettiva più grossolana, tutti i modelli non performano meglio del caso, indicando una profonda incapacità di percepire le caratteristiche visive globali. Significativamente, emerge una tendenza coerente all'interno delle famiglie di modelli: i modelli più potenti con capacità di ragionamento più forti mostrano un'accuratezza inferiore. Ciò suggerisce che il semplice aumento di scala dei modelli è insufficiente per affrontare questa carenza e potrebbe persino aggravarla. Il progresso potrebbe richiedere nuovi paradigmi di addestramento o architetture. TopoPerception non solo espone un collo di bottiglia critico negli LVLM attuali, ma offre anche una lente e una direzione per migliorare la loro percezione visiva globale. I dati e il codice sono pubblicamente disponibili all'indirizzo: https://github.com/Wenhao-Zhou/TopoPerception.
English
Large Vision-Language Models (LVLMs) typically align visual features from an encoder with a pre-trained Large Language Model (LLM). However, this makes the visual perception module a bottleneck, which constrains the overall capabilities of LVLMs. Conventional evaluation benchmarks, while rich in visual semantics, often contain unavoidable local shortcuts that can lead to an overestimation of models' perceptual abilities. Here, we introduce TopoPerception, a benchmark that leverages topological properties to rigorously evaluate the global visual perception capabilities of LVLMs across various granularities. Since topology depends on the global structure of an image and is invariant to local features, TopoPerception enables a shortcut-free assessment of global perception, fundamentally distinguishing it from semantically rich tasks. We evaluate state-of-the-art models on TopoPerception and find that even at the coarsest perceptual granularity, all models perform no better than random chance, indicating a profound inability to perceive global visual features. Notably, a consistent trend emerge within model families: more powerful models with stronger reasoning capabilities exhibit lower accuracy. This suggests that merely scaling up models is insufficient to address this deficit and may even exacerbate it. Progress may require new training paradigms or architectures. TopoPerception not only exposes a critical bottleneck in current LVLMs but also offers a lens and direction for improving their global visual perception. The data and code are publicly available at: https://github.com/Wenhao-Zhou/TopoPerception.