Compter jusqu'à quatre reste un défi pour les modèles linguistiques visuels

Résumé

Les modèles vision-langage (VLM) obtiennent des performances impressionnantes sur des tâches de raisonnement multimodal complexes, mais ils échouent encore sur des compétences de base comme le décompte d'objets. Les évaluations existantes se limitent souvent à juger les sorties finales, offrant ainsi une vision limitée de l'origine de ces échecs au sein du modèle. Dans ce travail, nous présentons une étude empirique du comportement des VLM pour le décompte via des analyses comportementales et mécanistes. Nous introduisons COUNTINGTRICKS, une suite d'évaluation contrôlée basée sur des cas simples de décompte de formes, conçue pour révéler les vulnérabilités sous différentes dispositions de patchs et conditions d'invite adverses. En utilisant l'analyse d'attention et des sondages par composant, nous montrons que les preuves visuelles pertinentes pour le décompte sont plus fortes au stade de projection des modalités, mais se dégradent substantiellement dans les couches langagières ultérieures, où les modèles deviennent plus sensibles aux préjugés textuels. Motivés par cette observation, nous évaluons ensuite le Modality Attention Share (MAS), une intervention légère qui encourage un budget minimal d'attention visuelle durant la génération de la réponse. Nos résultats suggèrent que les échecs de décompte des VLM proviennent non seulement de limites de perception visuelle, mais aussi d'une sous-utilisation des preuves visuelles lors du raisonnement au stade langagier. Le code et le jeu de données seront publiés à l'adresse https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

English

Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

Compter jusqu'à quatre reste un défi pour les modèles linguistiques visuels

Counting to Four is still a Chore for VLMs

Résumé

Support