Contare fino a Quattro Rimane un Compito Arduo per i Modelli Linguistici Visivi

Abstract

I modelli visione-linguaggio (VLM) hanno ottenuto prestazioni impressionanti in compiti complessi di ragionamento multimodale, ma falliscono ancora in abilità di base come il conteggio di oggetti. Le valutazioni esistenti misurano principalmente gli output finali, offrendo una comprensione limitata di dove si originino questi errori all'interno del modello. In questo lavoro, presentiamo uno studio empirico sul comportamento di conteggio dei VLM attraverso analisi comportamentali e meccanicistiche. Introduciamo COUNTINGTRICKS, una suite di valutazione controllata costituita da semplici casi di conteggio basati su forme, progettata per evidenziare vulnerabilità in diverse configurazioni di patchification e condizioni di prompt adversarial. Utilizzando l'analisi dell'attenzione e probing componente per componente, dimostriamo che l'evidenza visiva rilevante per il conteggio è più forte nella fase di proiezione di modalità ma si degrada sostanzialmente negli strati linguistici successivi, dove i modelli diventano più suscettibili a prior testuali. Sulla base di questa scoperta, valutiamo ulteriormente Modality Attention Share (MAS), un intervento leggero che incoraggia un budget minimo di attenzione visiva durante la generazione della risposta. I nostri risultati suggeriscono che gli errori di conteggio nei VLM derivano non solo dai limiti della percezione visiva, ma anche dal sottoutilizzo dell'evidenza visiva durante il ragionamento nella fase linguistica. Codice e dataset saranno rilasciati su https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

English

Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

Contare fino a Quattro Rimane un Compito Arduo per i Modelli Linguistici Visivi

Counting to Four is still a Chore for VLMs

Abstract

Support