MMR-V : Ce qui reste non dit ? Un benchmark pour le raisonnement profond multimodal dans les vidéos
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
June 4, 2025
Auteurs: Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Résumé
La structure séquentielle des vidéos représente un défi pour la capacité des modèles de langage multimodaux de grande taille (MLLMs) à localiser des preuves multi-images et à effectuer un raisonnement multimodal. Cependant, les benchmarks vidéo existants se concentrent principalement sur des tâches de compréhension, qui ne nécessitent que la correspondance des images mentionnées dans la question (appelées ici "image de question") et la perception de quelques images adjacentes. Pour combler cette lacune, nous proposons MMR-V : Un Benchmark pour le Raisonnement Profond Multimodal dans les Vidéos. Ce benchmark se caractérise par les éléments suivants. (1) Raisonnement multi-images à long terme : Les modèles doivent inférer et analyser des images de preuve pouvant être éloignées de l'image de question. (2) Au-delà de la perception : Les questions ne peuvent être résolues par la perception directe seule, mais nécessitent un raisonnement sur des informations cachées. (3) Fiabilité : Toutes les tâches sont annotées manuellement, en référence à une compréhension approfondie des utilisateurs réels pour s'aligner sur les perceptions communes. (4) Confusion : Des stratégies d'annotation de distracteurs soigneusement conçues pour réduire les raccourcis des modèles. MMR-V comprend 317 vidéos et 1 257 tâches. Nos expériences révèlent que les modèles actuels ont encore des difficultés avec le raisonnement multimodal ; même le modèle le plus performant, o4-mini, n'atteint que 52,5 % de précision. De plus, les stratégies actuelles d'amélioration du raisonnement (Chain-of-Thought et mise à l'échelle du calcul au moment du test) apportent des gains limités. Une analyse plus approfondie indique que le CoT requis pour le raisonnement multimodal diffère de celui du raisonnement textuel, ce qui explique en partie les gains de performance limités. Nous espérons que MMR-V pourra inspirer des recherches supplémentaires pour améliorer les capacités de raisonnement multimodal.
English
The sequential structure of videos poses a challenge to the ability of
multimodal large language models (MLLMs) to locate multi-frame evidence and
conduct multimodal reasoning. However, existing video benchmarks mainly focus
on understanding tasks, which only require models to match frames mentioned in
the question (hereafter referred to as "question frame") and perceive a few
adjacent frames. To address this gap, we propose MMR-V: A Benchmark for
Multimodal Deep Reasoning in Videos. The benchmark is characterized by the
following features. (1) Long-range, multi-frame reasoning: Models are required
to infer and analyze evidence frames that may be far from the question frame.
(2) Beyond perception: Questions cannot be answered through direct perception
alone but require reasoning over hidden information. (3) Reliability: All tasks
are manually annotated, referencing extensive real-world user understanding to
align with common perceptions. (4) Confusability: Carefully designed distractor
annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos
and 1,257 tasks. Our experiments reveal that current models still struggle with
multi-modal reasoning; even the best-performing model, o4-mini, achieves only
52.5% accuracy. Additionally, current reasoning enhancement strategies
(Chain-of-Thought and scaling test-time compute) bring limited gains. Further
analysis indicates that the CoT demanded for multi-modal reasoning differs from
it in textual reasoning, which partly explains the limited performance gains.
We hope that MMR-V can inspire further research into enhancing multi-modal
reasoning capabilities.