ChatPaper.aiChatPaper

より多くの画像、より多くの問題?VLMの失敗モードに関する制御実験分析

More Images, More Problems? A Controlled Analysis of VLM Failure Modes

January 12, 2026
著者: Anurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez
cs.AI

要旨

大規模視覚言語モデル(LVLM)は顕著な能力を示しているものの、複数画像の理解と推論における熟達度は未だ十分に解明されていない。既存のベンチマークでは複数画像モデルの評価が始まっているが、その中核的弱点と原因に関する体系的分析は依然として不足している。本研究では、LVLMの複数画像処理能力を厳密に評価する新しいベンチマーク「MIMIC(Multi-Image Model Insights and Challenges)」を提案する。MIMICを用いた一連の診断実験により、LVLMが画像間の情報統合に頻繁に失敗し、複数の概念を同時に追跡・注目することが困難であるという普遍的な課題を明らかにする。これらの課題に対処するため、二つの新規補完的解決策を提案する。データ側では、単一画像注釈を組み合わせて的を絞った豊富な複数画像学習事例を生成する手続き型データ生成戦略を提示する。最適化側では、階層的注意パターンを分析し、複数画像入力に特化した注意マスキング手法を導出する。実験結果では、画像間統合が大幅に改善され、既存の複数画像ベンチマークにおける性能も向上し、従来の最先端手法を各タスクで凌駕することを実証する。データとコードはhttps://github.com/anurag-198/MIMICで公開予定である。
English
Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.
PDF22January 20, 2026