MMR-V: Что осталось за кадром? Бенчмарк для мультимодального глубокого анализа в видеоматериалах
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
June 4, 2025
Авторы: Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Аннотация
Последовательная структура видео создает сложности для способности мультимодальных больших языковых моделей (MLLMs) находить доказательства, распределенные по нескольким кадрам, и проводить мультимодальные рассуждения. Однако существующие видеобенчмарки в основном сосредоточены на задачах понимания, которые требуют от моделей лишь сопоставления кадров, упомянутых в вопросе (далее называемых "вопросными кадрами"), и восприятия нескольких соседних кадров. Чтобы устранить этот пробел, мы предлагаем MMR-V: Бенчмарк для глубокого мультимодального рассуждения в видео. Этот бенчмарк характеризуется следующими особенностями. (1) Долгосрочное, многокадровое рассуждение: модели должны выводить и анализировать доказательства, которые могут находиться далеко от вопросного кадра. (2) Выход за пределы восприятия: вопросы не могут быть решены только через прямое восприятие, но требуют рассуждения над скрытой информацией. (3) Надежность: все задачи вручную аннотированы с учетом обширного понимания реальных пользователей, чтобы соответствовать общим представлениям. (4) Запутанность: тщательно разработанные стратегии аннотации отвлекающих элементов для сокращения использования моделями "коротких путей". MMR-V состоит из 317 видео и 1,257 задач. Наши эксперименты показывают, что современные модели все еще испытывают трудности с мультимодальными рассуждениями; даже лучшая модель, o4-mini, достигает точности лишь 52,5%. Кроме того, текущие стратегии улучшения рассуждений (Chain-of-Thought и масштабирование вычислительных ресурсов на этапе тестирования) приносят ограниченные улучшения. Дополнительный анализ показывает, что CoT, необходимый для мультимодальных рассуждений, отличается от CoT в текстовых рассуждениях, что частично объясняет ограниченные улучшения производительности. Мы надеемся, что MMR-V вдохновит дальнейшие исследования по улучшению мультимодальных способностей к рассуждению.
English
The sequential structure of videos poses a challenge to the ability of
multimodal large language models (MLLMs) to locate multi-frame evidence and
conduct multimodal reasoning. However, existing video benchmarks mainly focus
on understanding tasks, which only require models to match frames mentioned in
the question (hereafter referred to as "question frame") and perceive a few
adjacent frames. To address this gap, we propose MMR-V: A Benchmark for
Multimodal Deep Reasoning in Videos. The benchmark is characterized by the
following features. (1) Long-range, multi-frame reasoning: Models are required
to infer and analyze evidence frames that may be far from the question frame.
(2) Beyond perception: Questions cannot be answered through direct perception
alone but require reasoning over hidden information. (3) Reliability: All tasks
are manually annotated, referencing extensive real-world user understanding to
align with common perceptions. (4) Confusability: Carefully designed distractor
annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos
and 1,257 tasks. Our experiments reveal that current models still struggle with
multi-modal reasoning; even the best-performing model, o4-mini, achieves only
52.5% accuracy. Additionally, current reasoning enhancement strategies
(Chain-of-Thought and scaling test-time compute) bring limited gains. Further
analysis indicates that the CoT demanded for multi-modal reasoning differs from
it in textual reasoning, which partly explains the limited performance gains.
We hope that MMR-V can inspire further research into enhancing multi-modal
reasoning capabilities.