MMR-V: ¿Qué queda por decir? Un punto de referencia para el razonamiento profundo multimodal en videos.

Resumen

La estructura secuencial de los videos plantea un desafío para la capacidad de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) para localizar evidencia en múltiples cuadros y realizar razonamiento multimodal. Sin embargo, los benchmarks de video existentes se centran principalmente en tareas de comprensión, que solo requieren que los modelos emparejen los cuadros mencionados en la pregunta (en adelante denominados "cuadro de la pregunta") y perciban unos pocos cuadros adyacentes. Para abordar esta brecha, proponemos MMR-V: Un Benchmark para el Razonamiento Profundo Multimodal en Videos. Este benchmark se caracteriza por las siguientes características. (1) Razonamiento de largo alcance y múltiples cuadros: Se requiere que los modelos infieran y analicen cuadros de evidencia que pueden estar lejos del cuadro de la pregunta. (2) Más allá de la percepción: Las preguntas no pueden responderse únicamente mediante percepción directa, sino que requieren razonamiento sobre información oculta. (3) Fiabilidad: Todas las tareas están anotadas manualmente, haciendo referencia a una amplia comprensión del mundo real por parte de los usuarios para alinearse con percepciones comunes. (4) Confusabilidad: Estrategias de anotación de distractores cuidadosamente diseñadas para reducir los atajos del modelo. MMR-V consta de 317 videos y 1,257 tareas. Nuestros experimentos revelan que los modelos actuales aún tienen dificultades con el razonamiento multimodal; incluso el modelo con mejor rendimiento, o4-mini, alcanza solo un 52.5% de precisión. Además, las estrategias actuales de mejora del razonamiento (Chain-of-Thought y escalado del cómputo en tiempo de prueba) aportan ganancias limitadas. Un análisis más detallado indica que el CoT requerido para el razonamiento multimodal difiere del utilizado en el razonamiento textual, lo que explica en parte las limitadas mejoras en el rendimiento. Esperamos que MMR-V pueda inspirar más investigaciones para mejorar las capacidades de razonamiento multimodal.

English

The sequential structure of videos poses a challenge to the ability of multimodal large language models (MLLMs) to locate multi-frame evidence and conduct multimodal reasoning. However, existing video benchmarks mainly focus on understanding tasks, which only require models to match frames mentioned in the question (hereafter referred to as "question frame") and perceive a few adjacent frames. To address this gap, we propose MMR-V: A Benchmark for Multimodal Deep Reasoning in Videos. The benchmark is characterized by the following features. (1) Long-range, multi-frame reasoning: Models are required to infer and analyze evidence frames that may be far from the question frame. (2) Beyond perception: Questions cannot be answered through direct perception alone but require reasoning over hidden information. (3) Reliability: All tasks are manually annotated, referencing extensive real-world user understanding to align with common perceptions. (4) Confusability: Carefully designed distractor annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos and 1,257 tasks. Our experiments reveal that current models still struggle with multi-modal reasoning; even the best-performing model, o4-mini, achieves only 52.5% accuracy. Additionally, current reasoning enhancement strategies (Chain-of-Thought and scaling test-time compute) bring limited gains. Further analysis indicates that the CoT demanded for multi-modal reasoning differs from it in textual reasoning, which partly explains the limited performance gains. We hope that MMR-V can inspire further research into enhancing multi-modal reasoning capabilities.

MMR-V: ¿Qué queda por decir? Un punto de referencia para el razonamiento profundo multimodal en videos.

MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

Resumen

Support