MMR-V: ¿Qué queda por decir? Un punto de referencia para el razonamiento profundo multimodal en videos.
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
June 4, 2025
Autores: Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Resumen
La estructura secuencial de los videos plantea un desafío para la capacidad de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) para localizar evidencia en múltiples cuadros y realizar razonamiento multimodal. Sin embargo, los benchmarks de video existentes se centran principalmente en tareas de comprensión, que solo requieren que los modelos emparejen los cuadros mencionados en la pregunta (en adelante denominados "cuadro de la pregunta") y perciban unos pocos cuadros adyacentes. Para abordar esta brecha, proponemos MMR-V: Un Benchmark para el Razonamiento Profundo Multimodal en Videos. Este benchmark se caracteriza por las siguientes características. (1) Razonamiento de largo alcance y múltiples cuadros: Se requiere que los modelos infieran y analicen cuadros de evidencia que pueden estar lejos del cuadro de la pregunta. (2) Más allá de la percepción: Las preguntas no pueden responderse únicamente mediante percepción directa, sino que requieren razonamiento sobre información oculta. (3) Fiabilidad: Todas las tareas están anotadas manualmente, haciendo referencia a una amplia comprensión del mundo real por parte de los usuarios para alinearse con percepciones comunes. (4) Confusabilidad: Estrategias de anotación de distractores cuidadosamente diseñadas para reducir los atajos del modelo. MMR-V consta de 317 videos y 1,257 tareas. Nuestros experimentos revelan que los modelos actuales aún tienen dificultades con el razonamiento multimodal; incluso el modelo con mejor rendimiento, o4-mini, alcanza solo un 52.5% de precisión. Además, las estrategias actuales de mejora del razonamiento (Chain-of-Thought y escalado del cómputo en tiempo de prueba) aportan ganancias limitadas. Un análisis más detallado indica que el CoT requerido para el razonamiento multimodal difiere del utilizado en el razonamiento textual, lo que explica en parte las limitadas mejoras en el rendimiento. Esperamos que MMR-V pueda inspirar más investigaciones para mejorar las capacidades de razonamiento multimodal.
English
The sequential structure of videos poses a challenge to the ability of
multimodal large language models (MLLMs) to locate multi-frame evidence and
conduct multimodal reasoning. However, existing video benchmarks mainly focus
on understanding tasks, which only require models to match frames mentioned in
the question (hereafter referred to as "question frame") and perceive a few
adjacent frames. To address this gap, we propose MMR-V: A Benchmark for
Multimodal Deep Reasoning in Videos. The benchmark is characterized by the
following features. (1) Long-range, multi-frame reasoning: Models are required
to infer and analyze evidence frames that may be far from the question frame.
(2) Beyond perception: Questions cannot be answered through direct perception
alone but require reasoning over hidden information. (3) Reliability: All tasks
are manually annotated, referencing extensive real-world user understanding to
align with common perceptions. (4) Confusability: Carefully designed distractor
annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos
and 1,257 tasks. Our experiments reveal that current models still struggle with
multi-modal reasoning; even the best-performing model, o4-mini, achieves only
52.5% accuracy. Additionally, current reasoning enhancement strategies
(Chain-of-Thought and scaling test-time compute) bring limited gains. Further
analysis indicates that the CoT demanded for multi-modal reasoning differs from
it in textual reasoning, which partly explains the limited performance gains.
We hope that MMR-V can inspire further research into enhancing multi-modal
reasoning capabilities.