MMR-V: Cosa rimane non detto? Un benchmark per il ragionamento profondo multimodale nei video

Abstract

La struttura sequenziale dei video rappresenta una sfida per la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) di individuare prove multi-frame e condurre ragionamenti multimodali. Tuttavia, i benchmark video esistenti si concentrano principalmente su compiti di comprensione, che richiedono ai modelli solo di abbinare i frame menzionati nella domanda (di seguito denominati "frame della domanda") e percepire pochi frame adiacenti. Per colmare questa lacuna, proponiamo MMR-V: un benchmark per il ragionamento profondo multimodale nei video. Il benchmark è caratterizzato dalle seguenti caratteristiche. (1) Ragionamento multi-frame a lungo raggio: i modelli devono dedurre e analizzare frame di prova che possono essere lontani dal frame della domanda. (2) Oltre la percezione: le domande non possono essere risolte solo attraverso la percezione diretta, ma richiedono un ragionamento su informazioni nascoste. (3) Affidabilità: tutti i compiti sono annotati manualmente, facendo riferimento a un'ampia comprensione degli utenti del mondo reale per allinearsi alle percezioni comuni. (4) Confondibilità: strategie di annotazione dei distrattori progettate con cura per ridurre le scorciatoie dei modelli. MMR-V è composto da 317 video e 1.257 compiti. I nostri esperimenti rivelano che i modelli attuali continuano a lottare con il ragionamento multimodale; anche il modello con le migliori prestazioni, o4-mini, raggiunge solo il 52,5% di accuratezza. Inoltre, le attuali strategie di potenziamento del ragionamento (Chain-of-Thought e scalabilità del calcolo al momento del test) portano a guadagni limitati. Un'ulteriore analisi indica che il CoT richiesto per il ragionamento multimodale differisce da quello nel ragionamento testuale, il che spiega in parte i limitati guadagni di prestazioni. Speriamo che MMR-V possa ispirare ulteriori ricerche per migliorare le capacità di ragionamento multimodale.

English

The sequential structure of videos poses a challenge to the ability of multimodal large language models (MLLMs) to locate multi-frame evidence and conduct multimodal reasoning. However, existing video benchmarks mainly focus on understanding tasks, which only require models to match frames mentioned in the question (hereafter referred to as "question frame") and perceive a few adjacent frames. To address this gap, we propose MMR-V: A Benchmark for Multimodal Deep Reasoning in Videos. The benchmark is characterized by the following features. (1) Long-range, multi-frame reasoning: Models are required to infer and analyze evidence frames that may be far from the question frame. (2) Beyond perception: Questions cannot be answered through direct perception alone but require reasoning over hidden information. (3) Reliability: All tasks are manually annotated, referencing extensive real-world user understanding to align with common perceptions. (4) Confusability: Carefully designed distractor annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos and 1,257 tasks. Our experiments reveal that current models still struggle with multi-modal reasoning; even the best-performing model, o4-mini, achieves only 52.5% accuracy. Additionally, current reasoning enhancement strategies (Chain-of-Thought and scaling test-time compute) bring limited gains. Further analysis indicates that the CoT demanded for multi-modal reasoning differs from it in textual reasoning, which partly explains the limited performance gains. We hope that MMR-V can inspire further research into enhancing multi-modal reasoning capabilities.

MMR-V: Cosa rimane non detto? Un benchmark per il ragionamento profondo multimodale nei video

MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

Abstract

Support