더 많은 이미지, 더 많은 문제? VLM 실패 모드에 대한 통제 분석
More Images, More Problems? A Controlled Analysis of VLM Failure Modes
January 12, 2026
저자: Anurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez
cs.AI
초록
대규모 시각 언어 모델(LVLMs)은 놀라운 능력을 보여주었으나, 다중 이미지에 대한 이해와 추론 능력은 여전히 크게 탐구되지 않았습니다. 기존 벤치마크들이 다중 이미지 모델 평가를 시작했지만, 이러한 모델들의 핵심적 약점과 그 원인에 대한 포괄적인 분석은 아직 부족한 실정입니다. 본 연구에서는 LVLM의 다중 이미지 능력을 엄격하게 평가하기 위해 새로운 벤치마크인 MIMIC(다중 이미지 모델 통찰 및 과제)을 소개합니다. MIMIC을 활용한 일련의 진단 실험을 통해 LVLM이 이미지 간 정보를 종합하는 데 자주 실패하고, 여러 개념을 동시에 추적하거나 주의를 기울이는 데 어려움을 겪는 등 보편적인 문제점을 발견했습니다. 이러한 한계를 해결하기 위해 두 가지 새로운 상호 보완적 개선 방안을 제안합니다. 데이터 측면에서는 단일 이미지 주석을 풍부하고 목표 지향적인 다중 이미지 학습 예제로 구성하는 절차적 데이터 생성 전략을 제시합니다. 최적화 측면에서는 계층별 주의 패턴을 분석하고 다중 이미지 입력에 특화된 주의 마스킹 기법을 도출했습니다. 실험 결과, 이미지 간 종합 능력이 크게 개선되었을 뿐만 아니라 기존 다중 이미지 벤치마크에서도 성능이 향상되어 다양한 과제에서 기존 최첨단 기술을 능가하는 성과를 보였습니다. 데이터와 코드는 https://github.com/anurag-198/MIMIC에서 공개될 예정입니다.
English
Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.