MMR-V: O Que Fica por Dizer? Um Benchmark para Raciocínio Profundo Multimodal em Vídeos
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
June 4, 2025
Autores: Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Resumo
A estrutura sequencial dos vídeos representa um desafio para a capacidade dos modelos de linguagem multimodal de grande escala (MLLMs) de localizar evidências em múltiplos quadros e realizar raciocínio multimodal. No entanto, os benchmarks de vídeo existentes focam principalmente em tarefas de compreensão, que exigem apenas que os modelos correspondam aos quadros mencionados na pergunta (doravante denominados "quadro da pergunta") e percebam alguns quadros adjacentes. Para abordar essa lacuna, propomos o MMR-V: Um Benchmark para Raciocínio Profundo Multimodal em Vídeos. O benchmark é caracterizado pelas seguintes características. (1) Raciocínio de longo alcance e multi-quadro: Os modelos são obrigados a inferir e analisar quadros de evidência que podem estar distantes do quadro da pergunta. (2) Além da percepção: As perguntas não podem ser respondidas apenas por percepção direta, mas exigem raciocínio sobre informações ocultas. (3) Confiabilidade: Todas as tarefas são anotadas manualmente, com referência a um extenso entendimento do mundo real dos usuários para alinhar-se com percepções comuns. (4) Confusão: Estratégias de anotação de distratores cuidadosamente projetadas para reduzir atalhos dos modelos. O MMR-V consiste em 317 vídeos e 1.257 tarefas. Nossos experimentos revelam que os modelos atuais ainda lutam com o raciocínio multimodal; mesmo o modelo de melhor desempenho, o o4-mini, alcança apenas 52,5% de precisão. Além disso, as estratégias atuais de aprimoramento de raciocínio (Chain-of-Thought e escalonamento de computação em tempo de teste) trazem ganhos limitados. Uma análise adicional indica que o CoT exigido para o raciocínio multimodal difere daquele no raciocínio textual, o que explica parcialmente os ganhos limitados de desempenho. Esperamos que o MMR-V possa inspirar mais pesquisas para aprimorar as capacidades de raciocínio multimodal.
English
The sequential structure of videos poses a challenge to the ability of
multimodal large language models (MLLMs) to locate multi-frame evidence and
conduct multimodal reasoning. However, existing video benchmarks mainly focus
on understanding tasks, which only require models to match frames mentioned in
the question (hereafter referred to as "question frame") and perceive a few
adjacent frames. To address this gap, we propose MMR-V: A Benchmark for
Multimodal Deep Reasoning in Videos. The benchmark is characterized by the
following features. (1) Long-range, multi-frame reasoning: Models are required
to infer and analyze evidence frames that may be far from the question frame.
(2) Beyond perception: Questions cannot be answered through direct perception
alone but require reasoning over hidden information. (3) Reliability: All tasks
are manually annotated, referencing extensive real-world user understanding to
align with common perceptions. (4) Confusability: Carefully designed distractor
annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos
and 1,257 tasks. Our experiments reveal that current models still struggle with
multi-modal reasoning; even the best-performing model, o4-mini, achieves only
52.5% accuracy. Additionally, current reasoning enhancement strategies
(Chain-of-Thought and scaling test-time compute) bring limited gains. Further
analysis indicates that the CoT demanded for multi-modal reasoning differs from
it in textual reasoning, which partly explains the limited performance gains.
We hope that MMR-V can inspire further research into enhancing multi-modal
reasoning capabilities.