ChatPaper.aiChatPaper

Больше изображений — больше проблем? Контролируемый анализ типовых ошибок визуально-языковых моделей

More Images, More Problems? A Controlled Analysis of VLM Failure Modes

January 12, 2026
Авторы: Anurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Аннотация

Крупные визуально-языковые модели (LVLM) продемонстрировали впечатляющие возможности, однако их способность к пониманию и рассуждению на основе нескольких изображений остаётся в значительной степени неисследованной. Хотя существующие бенчмарки положили начало оценке моделей для работы с несколькими изображениями, всесторонний анализ их ключевых слабых мест и причин их возникновения до сих пор отсутствует. В данной работе мы представляем MIMIC (Multi-Image Model Insights and Challenges) — новый бенчмарк, разработанный для строгой оценки способностей LVLM к работе с несколькими изображениями. Используя MIMIC, мы провели серию диагностических экспериментов, которые выявили повсеместные проблемы: LVLM часто не способны агрегировать информацию между изображениями и с трудом отслеживают или удерживают внимание на нескольких концепциях одновременно. Для устранения этих недостатков мы предлагаем два новых взаимодополняющих решения. Со стороны данных мы представляем стратегию процедурной генерации данных, которая комбинирует аннотации одиночных изображений в богатые целевые учебные примеры для многокартинного обучения. Со стороны оптимизации мы анализируем послойные паттерны внимания и разрабатываем схему маскирования внимания, адаптированную для входных данных с несколькими изображениями. Эксперименты показали существенное улучшение межкартинной агрегации, а также повышение производительности на существующих бенчмарках для нескольких изображений, превзойдя предыдущие state-of-the-art результаты по всем задачам. Данные и код будут доступны по адресу https://github.com/anurag-198/MIMIC.
English
Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.
PDF22January 20, 2026