Tot Vier Tellen Blijft een Uitdaging voor Visueel-Taalmodellen

Samenvatting

Vision-language modellen (VLMs) behalen indrukwekkende prestaties op complexe multimodale redeneertaken, maar falen toch op eenvoudige grondvaardigheden zoals het tellen van objecten. Bestaande evaluaties beoordelen voornamelijk alleen de uiteindelijke uitvoer, wat beperkt inzicht biedt in waar deze fouten in het model ontstaan. In dit werk presenteren we een empirische studie naar het telgedrag van VLMs door middel van zowel gedrags- als mechanistische analyse. We introduceren COUNTINGTRICKS, een gecontroleerde evaluatieset van eenvoudige, op vormen gebaseerde telgevallen, ontworpen om kwetsbaarheden bloot te leggen onder verschillende patchificatielay-outs en adversariële promptomstandigheden. Met behulp van aandachtanalyse en componentgewijs onderzoek tonen we aan dat visueel bewijs relevant voor tellen het sterkst is in de modaliteitsprojectiefase, maar aanzienlijk afneemt in latere taallagen, waar modellen gevoeliger worden voor tekstuele prioriteiten. Gemotiveerd door deze bevinding evalueren we verder Modality Attention Share (MAS), een lichtgewicht interventie die een minimumbudget aan visuele aandacht aanmoedigt tijdens het genereren van antwoorden. Onze resultaten suggereren dat telmislukkingen in VLMs niet alleen voortkomen uit beperkingen in de visuele perceptie, maar ook uit het onvoldoende benutten van visueel bewijs tijdens de redeneerfase in de taallaag. Code en dataset worden vrijgegeven op https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

English

Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

Tot Vier Tellen Blijft een Uitdaging voor Visueel-Taalmodellen

Counting to Four is still a Chore for VLMs

Samenvatting

Support