MMR-V: Что осталось за кадром? Бенчмарк для мультимодального глубокого анализа в видеоматериалах

Аннотация

Последовательная структура видео создает сложности для способности мультимодальных больших языковых моделей (MLLMs) находить доказательства, распределенные по нескольким кадрам, и проводить мультимодальные рассуждения. Однако существующие видеобенчмарки в основном сосредоточены на задачах понимания, которые требуют от моделей лишь сопоставления кадров, упомянутых в вопросе (далее называемых "вопросными кадрами"), и восприятия нескольких соседних кадров. Чтобы устранить этот пробел, мы предлагаем MMR-V: Бенчмарк для глубокого мультимодального рассуждения в видео. Этот бенчмарк характеризуется следующими особенностями. (1) Долгосрочное, многокадровое рассуждение: модели должны выводить и анализировать доказательства, которые могут находиться далеко от вопросного кадра. (2) Выход за пределы восприятия: вопросы не могут быть решены только через прямое восприятие, но требуют рассуждения над скрытой информацией. (3) Надежность: все задачи вручную аннотированы с учетом обширного понимания реальных пользователей, чтобы соответствовать общим представлениям. (4) Запутанность: тщательно разработанные стратегии аннотации отвлекающих элементов для сокращения использования моделями "коротких путей". MMR-V состоит из 317 видео и 1,257 задач. Наши эксперименты показывают, что современные модели все еще испытывают трудности с мультимодальными рассуждениями; даже лучшая модель, o4-mini, достигает точности лишь 52,5%. Кроме того, текущие стратегии улучшения рассуждений (Chain-of-Thought и масштабирование вычислительных ресурсов на этапе тестирования) приносят ограниченные улучшения. Дополнительный анализ показывает, что CoT, необходимый для мультимодальных рассуждений, отличается от CoT в текстовых рассуждениях, что частично объясняет ограниченные улучшения производительности. Мы надеемся, что MMR-V вдохновит дальнейшие исследования по улучшению мультимодальных способностей к рассуждению.

English

The sequential structure of videos poses a challenge to the ability of multimodal large language models (MLLMs) to locate multi-frame evidence and conduct multimodal reasoning. However, existing video benchmarks mainly focus on understanding tasks, which only require models to match frames mentioned in the question (hereafter referred to as "question frame") and perceive a few adjacent frames. To address this gap, we propose MMR-V: A Benchmark for Multimodal Deep Reasoning in Videos. The benchmark is characterized by the following features. (1) Long-range, multi-frame reasoning: Models are required to infer and analyze evidence frames that may be far from the question frame. (2) Beyond perception: Questions cannot be answered through direct perception alone but require reasoning over hidden information. (3) Reliability: All tasks are manually annotated, referencing extensive real-world user understanding to align with common perceptions. (4) Confusability: Carefully designed distractor annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos and 1,257 tasks. Our experiments reveal that current models still struggle with multi-modal reasoning; even the best-performing model, o4-mini, achieves only 52.5% accuracy. Additionally, current reasoning enhancement strategies (Chain-of-Thought and scaling test-time compute) bring limited gains. Further analysis indicates that the CoT demanded for multi-modal reasoning differs from it in textual reasoning, which partly explains the limited performance gains. We hope that MMR-V can inspire further research into enhancing multi-modal reasoning capabilities.

MMR-V: Что осталось за кадром? Бенчмарк для мультимодального глубокого анализа в видеоматериалах

MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

Аннотация

Support