Bis Vier zu Zählen Bleibt für VLMs eine Mühsame Aufgabe

Zusammenfassung

Vision-Language-Modelle (VLMs) haben beeindruckende Leistungen bei komplexen multimodalen Reasoning-Aufgaben erzielt, scheitern jedoch nach wie vor an einfachen Grundfähigkeiten wie dem Zählen von Objekten. Bestehende Evaluationen bewerten meist nur die Endergebnisse und bieten damit nur begrenzte Einblicke, wo genau diese Fehler im Modell entstehen. In dieser Arbeit präsentieren wir eine empirische Untersuchung des Zählverhaltens von VLMs mittels verhaltensbasierter und mechanistischer Analyse. Wir stellen COUNTINGTRICKS vor, eine kontrollierte Evaluationssuite einfacher, formbasierter Zählfälle, die entwickelt wurde, um Schwachstellen unter verschiedenen Patch-Aufteilungen und adversariellen Prompting-Bedingungen aufzudecken. Mittels Aufmerksamkeitsanalyse und komponentenbasierter Abfrage zeigen wir, dass zählrelevante visuelle Evidenz in der Modalitätsprojektionsphase am stärksten ist, jedoch in späteren Sprachschichten erheblich abnimmt, wo Modelle anfälliger für Text-Prioritäten werden. Aufbauend auf dieser Erkenntnis evaluieren wir weiterhin Modality Attention Share (MAS), eine leichtgewichtige Intervention, die einen minimalen Anteil visueller Aufmerksamkeit während der Antwortgenerierung erzwingt. Unsere Ergebnisse deuten darauf hin, dass Zählfehler in VLMs nicht nur auf Grenzen der visuellen Wahrnehmung zurückzuführen sind, sondern auch auf die unzureichende Nutzung visueller Evidenz während des sprachbasierten Reasoning. Code und Datensatz werden unter https://github.com/leduy99/-CVPRW26-Modality-Attention-Share veröffentlicht.

English

Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

Bis Vier zu Zählen Bleibt für VLMs eine Mühsame Aufgabe

Counting to Four is still a Chore for VLMs

Zusammenfassung

Support