ChatPaper.aiChatPaper

MMR-V: Was bleibt ungesagt? Ein Benchmark für multimodales tiefes Schlussfolgern in Videos

MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

June 4, 2025
Autoren: Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI

Zusammenfassung

Die sequenzielle Struktur von Videos stellt eine Herausforderung für die Fähigkeit multimodaler großer Sprachmodelle (MLLMs) dar, Beweise über mehrere Frames hinweg zu lokalisieren und multimodales Schlussfolgern durchzuführen. Bisherige Video-Benchmarks konzentrieren sich jedoch hauptsächlich auf Verständnisaufgaben, die lediglich erfordern, dass Modelle die in der Frage erwähnten Frames (im Folgenden als "Frage-Frames" bezeichnet) abgleichen und einige benachbarte Frames wahrnehmen. Um diese Lücke zu schließen, schlagen wir MMR-V vor: einen Benchmark für tiefgreifendes multimodales Schlussfolgern in Videos. Der Benchmark zeichnet sich durch folgende Merkmale aus: (1) Langstreckiges, multi-Frame-Schlussfolgern: Modelle müssen Beweisframes analysieren, die weit vom Frage-Frame entfernt sein können. (2) Über die Wahrnehmung hinaus: Fragen können nicht allein durch direkte Wahrnehmung beantwortet werden, sondern erfordern das Schlussfolgern über versteckte Informationen. (3) Zuverlässigkeit: Alle Aufgaben sind manuell annotiert und beziehen sich auf umfangreiches reales Nutzerverständnis, um mit allgemeinen Wahrnehmungen übereinzustimmen. (4) Verwirrungspotenzial: Sorgfältig gestaltete Ablenker-Annotationsstrategien, um Modellabkürzungen zu reduzieren. MMR-V besteht aus 317 Videos und 1.257 Aufgaben. Unsere Experimente zeigen, dass aktuelle Modelle immer noch Schwierigkeiten mit multimodalen Schlussfolgerungen haben; selbst das leistungsstärkste Modell, o4-mini, erreicht nur eine Genauigkeit von 52,5 %. Zudem bringen aktuelle Strategien zur Verbesserung des Schlussfolgerns (Chain-of-Thought und Skalierung der Testzeit-Ressourcen) nur begrenzte Fortschritte. Eine weitere Analyse zeigt, dass der für multimodales Schlussfolgern erforderliche CoT sich von dem bei textuellen Schlussfolgerungen unterscheidet, was teilweise die begrenzten Leistungssteigerungen erklärt. Wir hoffen, dass MMR-V weitere Forschungen zur Verbesserung multimodaler Schlussfolgerungsfähigkeiten inspirieren kann.
English
The sequential structure of videos poses a challenge to the ability of multimodal large language models (MLLMs) to locate multi-frame evidence and conduct multimodal reasoning. However, existing video benchmarks mainly focus on understanding tasks, which only require models to match frames mentioned in the question (hereafter referred to as "question frame") and perceive a few adjacent frames. To address this gap, we propose MMR-V: A Benchmark for Multimodal Deep Reasoning in Videos. The benchmark is characterized by the following features. (1) Long-range, multi-frame reasoning: Models are required to infer and analyze evidence frames that may be far from the question frame. (2) Beyond perception: Questions cannot be answered through direct perception alone but require reasoning over hidden information. (3) Reliability: All tasks are manually annotated, referencing extensive real-world user understanding to align with common perceptions. (4) Confusability: Carefully designed distractor annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos and 1,257 tasks. Our experiments reveal that current models still struggle with multi-modal reasoning; even the best-performing model, o4-mini, achieves only 52.5% accuracy. Additionally, current reasoning enhancement strategies (Chain-of-Thought and scaling test-time compute) bring limited gains. Further analysis indicates that the CoT demanded for multi-modal reasoning differs from it in textual reasoning, which partly explains the limited performance gains. We hope that MMR-V can inspire further research into enhancing multi-modal reasoning capabilities.
PDF292June 5, 2025