MMR-V: Cosa rimane non detto? Un benchmark per il ragionamento profondo multimodale nei video
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
June 4, 2025
Autori: Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Abstract
La struttura sequenziale dei video rappresenta una sfida per la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) di individuare prove multi-frame e condurre ragionamenti multimodali. Tuttavia, i benchmark video esistenti si concentrano principalmente su compiti di comprensione, che richiedono ai modelli solo di abbinare i frame menzionati nella domanda (di seguito denominati "frame della domanda") e percepire pochi frame adiacenti. Per colmare questa lacuna, proponiamo MMR-V: un benchmark per il ragionamento profondo multimodale nei video. Il benchmark è caratterizzato dalle seguenti caratteristiche. (1) Ragionamento multi-frame a lungo raggio: i modelli devono dedurre e analizzare frame di prova che possono essere lontani dal frame della domanda. (2) Oltre la percezione: le domande non possono essere risolte solo attraverso la percezione diretta, ma richiedono un ragionamento su informazioni nascoste. (3) Affidabilità: tutti i compiti sono annotati manualmente, facendo riferimento a un'ampia comprensione degli utenti del mondo reale per allinearsi alle percezioni comuni. (4) Confondibilità: strategie di annotazione dei distrattori progettate con cura per ridurre le scorciatoie dei modelli. MMR-V è composto da 317 video e 1.257 compiti. I nostri esperimenti rivelano che i modelli attuali continuano a lottare con il ragionamento multimodale; anche il modello con le migliori prestazioni, o4-mini, raggiunge solo il 52,5% di accuratezza. Inoltre, le attuali strategie di potenziamento del ragionamento (Chain-of-Thought e scalabilità del calcolo al momento del test) portano a guadagni limitati. Un'ulteriore analisi indica che il CoT richiesto per il ragionamento multimodale differisce da quello nel ragionamento testuale, il che spiega in parte i limitati guadagni di prestazioni. Speriamo che MMR-V possa ispirare ulteriori ricerche per migliorare le capacità di ragionamento multimodale.
English
The sequential structure of videos poses a challenge to the ability of
multimodal large language models (MLLMs) to locate multi-frame evidence and
conduct multimodal reasoning. However, existing video benchmarks mainly focus
on understanding tasks, which only require models to match frames mentioned in
the question (hereafter referred to as "question frame") and perceive a few
adjacent frames. To address this gap, we propose MMR-V: A Benchmark for
Multimodal Deep Reasoning in Videos. The benchmark is characterized by the
following features. (1) Long-range, multi-frame reasoning: Models are required
to infer and analyze evidence frames that may be far from the question frame.
(2) Beyond perception: Questions cannot be answered through direct perception
alone but require reasoning over hidden information. (3) Reliability: All tasks
are manually annotated, referencing extensive real-world user understanding to
align with common perceptions. (4) Confusability: Carefully designed distractor
annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos
and 1,257 tasks. Our experiments reveal that current models still struggle with
multi-modal reasoning; even the best-performing model, o4-mini, achieves only
52.5% accuracy. Additionally, current reasoning enhancement strategies
(Chain-of-Thought and scaling test-time compute) bring limited gains. Further
analysis indicates that the CoT demanded for multi-modal reasoning differs from
it in textual reasoning, which partly explains the limited performance gains.
We hope that MMR-V can inspire further research into enhancing multi-modal
reasoning capabilities.