Contar até Quatro Continua Sendo um Desafio para os VLMs

Resumo

Os modelos visão-linguagem (VLMs) têm alcançado desempenho impressionante em tarefas complexas de raciocínio multimodal, mas ainda falham em habilidades básicas de aterramento, como a contagem de objetos. As avaliações existentes avaliam principalmente os resultados finais, oferecendo insights limitados sobre onde essas falhas surgem dentro do modelo. Neste trabalho, apresentamos um estudo empírico do comportamento de contagem de VLMs por meio de análises comportamentais e mecanicistas. Introduzimos o COUNTINGTRICKS, um conjunto de avaliação controlado de casos simples de contagem baseados em formas, projetado para expor vulnerabilidades sob diferentes layouts de "patchificação" e condições adversas de "prompting". Usando análise de atenção e sondagem componente a componente, mostramos que a evidência visual relevante para a contagem é mais forte no estágio de projeção de modalidade, mas degrada substancialmente nas camadas linguísticas posteriores, onde os modelos se tornam mais suscetíveis a prévias textuais. Motivados por essa descoberta, avaliamos ainda o Modality Attention Share (MAS), uma intervenção leve que incentiva um orçamento mínimo de atenção visual durante a geração de respostas. Nossos resultados sugerem que as falhas de contagem em VLMs decorrem não apenas dos limites da percepção visual, mas também do subuso da evidência visual durante o raciocínio na etapa linguística. O código e o conjunto de dados serão disponibilizados em https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

English

Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

Contar até Quatro Continua Sendo um Desafio para os VLMs

Counting to Four is still a Chore for VLMs

Resumo

Support