ChatPaper.aiChatPaper

MMR-V: Wat Blijft Onuitgesproken? Een Benchmark voor Multimodaal Diep Redeneren in Video's

MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

June 4, 2025
Auteurs: Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI

Samenvatting

De sequentiële structuur van video's vormt een uitdaging voor het vermogen van multimodale grote taalmodellen (MLLMs) om bewijsmateriaal over meerdere frames te lokaliseren en multimodale redenering uit te voeren. Bestaande videobenchmarks richten zich echter voornamelijk op begripstaken, waarbij modellen alleen frames die in de vraag worden genoemd (hierna aangeduid als "vraagframe") hoeven te matchen en een paar aangrenzende frames hoeven waar te nemen. Om dit gat te dichten, stellen we MMR-V voor: Een Benchmark voor Multimodale Diepe Redenering in Video's. De benchmark wordt gekenmerkt door de volgende kenmerken. (1) Langeafstandsredenering over meerdere frames: Modellen moeten bewijsframes die ver van het vraagframe kunnen liggen, afleiden en analyseren. (2) Voorbij perceptie: Vragen kunnen niet alleen worden beantwoord door directe waarneming, maar vereisen redenering over verborgen informatie. (3) Betrouwbaarheid: Alle taken zijn handmatig geannoteerd, met verwijzing naar uitgebreid begrip van echte gebruikers om aan te sluiten bij algemene percepties. (4) Verwarring: Zorgvuldig ontworpen afleidingsannotatiestrategieën om modelkortsluitingen te verminderen. MMR-V bestaat uit 317 video's en 1.257 taken. Onze experimenten tonen aan dat huidige modellen nog steeds moeite hebben met multimodale redenering; zelfs het best presterende model, o4-mini, behaalt slechts 52,5% nauwkeurigheid. Daarnaast brengen huidige redeneringsverbeteringsstrategieën (Chain-of-Thought en schaling van testtijdberekeningen) beperkte winst. Verdere analyse geeft aan dat de CoT die nodig is voor multimodale redenering verschilt van die in tekstuele redenering, wat deels de beperkte prestatieverbeteringen verklaart. We hopen dat MMR-V verder onderzoek kan inspireren naar het verbeteren van multimodale redeneervaardigheden.
English
The sequential structure of videos poses a challenge to the ability of multimodal large language models (MLLMs) to locate multi-frame evidence and conduct multimodal reasoning. However, existing video benchmarks mainly focus on understanding tasks, which only require models to match frames mentioned in the question (hereafter referred to as "question frame") and perceive a few adjacent frames. To address this gap, we propose MMR-V: A Benchmark for Multimodal Deep Reasoning in Videos. The benchmark is characterized by the following features. (1) Long-range, multi-frame reasoning: Models are required to infer and analyze evidence frames that may be far from the question frame. (2) Beyond perception: Questions cannot be answered through direct perception alone but require reasoning over hidden information. (3) Reliability: All tasks are manually annotated, referencing extensive real-world user understanding to align with common perceptions. (4) Confusability: Carefully designed distractor annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos and 1,257 tasks. Our experiments reveal that current models still struggle with multi-modal reasoning; even the best-performing model, o4-mini, achieves only 52.5% accuracy. Additionally, current reasoning enhancement strategies (Chain-of-Thought and scaling test-time compute) bring limited gains. Further analysis indicates that the CoT demanded for multi-modal reasoning differs from it in textual reasoning, which partly explains the limited performance gains. We hope that MMR-V can inspire further research into enhancing multi-modal reasoning capabilities.
PDF292June 5, 2025