Contar hasta cuatro sigue siendo una tarea difícil para los Modelos de Lenguaje Visual

Resumen

Los modelos visión-lenguaje (VLM) han logrado un rendimiento impresionante en tareas complejas de razonamiento multimodal, pero aún fallan en habilidades básicas de fundamentación como el conteo de objetos. Las evaluaciones existentes se centran principalmente en los resultados finales, ofreciendo una visión limitada sobre dónde se originan estos fallos dentro del modelo. En este trabajo, presentamos un estudio empírico del comportamiento de conteo en VLMs mediante análisis conductual y mecanicista. Introducimos COUNTINGTRICKS, un banco de pruebas controlado con casos simples de conteo basados en formas, diseñado para exponer vulnerabilidades bajo diferentes disposiciones de fragmentación visual y condiciones de prompt adversariales. Mediante análisis de atención y sondaje por componentes, demostramos que la evidencia visual relevante para el conteo es más fuerte en la etapa de proyección de modalidades, pero se degrada sustancialmente en las capas lingüísticas posteriores, donde los modelos se vuelven más susceptibles a los prejuicios textuales. Motivados por este hallazgo, evaluamos Modality Attention Share (MAS), una intervención liviana que fomenta un presupuesto mínimo de atención visual durante la generación de respuestas. Nuestros resultados sugieren que los fallos de conteo en VLMs no solo surgen de límites en la percepción visual, sino también del uso insuficiente de evidencia visual durante el razonamiento en la etapa lingüística. El código y dataset estarán disponibles en https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

English

Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

Contar hasta cuatro sigue siendo una tarea difícil para los Modelos de Lenguaje Visual

Counting to Four is still a Chore for VLMs

Resumen

Support