Подсчет до четырех по-прежнему является сложной задачей для визуально-языковых моделей

Аннотация

Модели «визуальный вход – языковой выход» (VLM) демонстрируют впечатляющие результаты в решении сложных мультимодальных задач, однако по-прежнему допускают ошибки в простых навыках, таких как подсчет объектов. Существующие методы оценки в основном анализируют лишь итоговые результаты, что дает ограниченное представление о причинах таких сбоев внутри модели. В данной работе представлено эмпирическое исследование поведения VLM при подсчете с использованием поведенческого и механистического анализа. Мы представляем COUNTINGTRICKS – контролируемый набор тестов на подсчет простых геометрических фигур, разработанный для выявления уязвимостей при различных схемах разбиения изображения на патчи и условиях состязательных подсказок. С помощью анализа внимания и пошагового зондирования компонентов модели мы показываем, что визуальные признаки, релевантные для подсчета, наиболее выражены на этапе проекции модальностей, но существенно ослабевают в последующих языковых слоях, где модели становятся более подвержены текстовым априорным предположениям. На основе этого вывода мы оцениваем метод совместного использования модального внимания (Modality Attention Share, MAS) – легковесную интервенцию, обеспечивающую минимальный уровень визуального внимания при генерации ответа. Наши результаты свидетельствуют, что ошибки подсчета в VLM обусловлены не только ограничениями визуального восприятия, но и недостаточным использованием визуальных данных на этапе языковых рассуждений. Код и набор данных будут доступны по адресу https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

English

Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

Подсчет до четырех по-прежнему является сложной задачей для визуально-языковых моделей

Counting to Four is still a Chore for VLMs

Аннотация

Support