4까지 세는 일은 여전히 VLM에게 힘든 과제
Counting to Four is still a Chore for VLMs
April 11, 2026
저자: Duy Le Dinh Anh, Patrick Amadeus Irawan, Tuan Van Vo
cs.AI
초록
비전-언어 모델(VLM)은 복잡한 다중모달 추론 과제에서 인상적인 성능을 달성했지만, 객체 카운팅과 같은 간단한 기초 기술에서는 여전히 실패합니다. 기존 평가는 대부분 최종 출력만을 평가하여 모델 내부에서 이러한 실패가 어디서 발생하는지에 대한 통찰력을 제한적으로 제공합니다. 본 연구에서는 행동 분석과 메커니즘 분석을 통해 VLM의 카운팅 동작에 대한 실증적 연구를 제시합니다. 우리는 다양한 패치화 레이아웃과 적대적 프롬프팅 조건에서 취약점을 드러내도록 설계된 간단한 형태 기반 카운팅 사례들로 구성된 통제된 평가 도구인 COUNTINGTRICKS를 소개합니다. 어텐션 분석과 구성 요소별 프로빙을 통해, 카운팅 관련 시각적 증거는 모달리티 프로젝션 단계에서 가장 강력하지만 이후 언어 레이어에서 크게 약화되어 모델이 텍스트 사전 지식에 더 취약해진다는 것을 보여줍니다. 이 발견에 동기를 부여하여, 우리는 답변 생성 동안 최소한의 시각적 어텐션 사용을 장려하는 경량 인터벤션인 Modality Attention Share(MAS)를 추가로 평가합니다. 우리의 결과는 VLM의 카운팅 실패가 시각적 인식의 한계뿐만 아니라 언어 단계 추론 동안 시각적 증거의 활용 부족에서도 비롯됨을 시사합니다. 코드와 데이터셋은 https://github.com/leduy99/-CVPRW26-Modality-Attention-Share에서 공개될 예정입니다.
English
Vision--language models (VLMs) have achieved impressive performance on complex multimodal reasoning tasks, yet they still fail on simple grounding skills such as object counting. Existing evaluations mostly assess only final outputs, offering limited insight into where these failures arise inside the model. In this work, we present an empirical study of VLM counting behavior through both behavioral and mechanistic analysis. We introduce COUNTINGTRICKS, a controlled evaluation suite of simple shape-based counting cases designed to expose vulnerabilities under different patchification layouts and adversarial prompting conditions. Using attention analysis and component-wise probing, we show that count-relevant visual evidence is strongest in the modality projection stage but degrades substantially in later language layers, where models become more susceptible to text priors. Motivated by this finding, we further evaluate Modality Attention Share (MAS), a lightweight intervention that encourages a minimum budget of visual attention during answer generation. Our results suggest that counting failures in VLMs stem not only from visual perception limits, but also from the underuse of visual evidence during language-stage reasoning. Code and dataset will be released at https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.