VideoReasonBench: I modelli linguistici multimodali possono eseguire ragionamenti complessi su video con focus visivo?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
May 29, 2025
Autori: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
cs.AI
Abstract
Studi recenti hanno dimostrato che il ragionamento a catena di pensiero (CoT) esteso può migliorare significativamente le prestazioni dei grandi modelli linguistici (LLM) su compiti complessi. Tuttavia, questo vantaggio deve ancora essere dimostrato nel campo della comprensione video, poiché la maggior parte dei benchmark esistenti non possiede la profondità di ragionamento necessaria per evidenziare i benefici delle catene CoT estese. Sebbene recenti sforzi abbiano proposto benchmark mirati al ragionamento video, i compiti sono spesso guidati dalla conoscenza e non si basano pesantemente sul contenuto visivo. Per colmare questa lacuna, introduciamo VideoReasonBench, un benchmark progettato per valutare il ragionamento video complesso e centrato sulla visione. Per garantire ricchezza visiva e alta complessità di ragionamento, ogni video in VideoReasonBench rappresenta una sequenza di operazioni granulari su uno stato latente visibile solo in parte del video. Le domande valutano tre livelli crescenti di abilità di ragionamento video: ricordare le informazioni visive osservate, dedurre il contenuto degli stati latenti e prevedere informazioni oltre il video. In tale contesto, i modelli devono ricordare con precisione più operazioni nel video ed eseguire un ragionamento passo-passo per ottenere risposte finali corrette a queste domande. Utilizzando VideoReasonBench, valutiamo in modo completo 18 modelli linguistici multimodali (MLLM) all'avanguardia, riscontrando che la maggior parte ha prestazioni scarse nel ragionamento video complesso, ad esempio GPT-4o raggiunge solo il 6,9% di accuratezza, mentre il Gemini-2.5-Pro potenziato dal pensiero supera significativamente gli altri con il 56,0% di accuratezza. Le nostre indagini sul "test-time scaling" rivelano inoltre che un budget di pensiero esteso, pur offrendo benefici nulli o minimi sui benchmark video esistenti, è essenziale per migliorare le prestazioni su VideoReasonBench.
English
Recent studies have shown that long chain-of-thought (CoT) reasoning can
significantly enhance the performance of large language models (LLMs) on
complex tasks. However, this benefit is yet to be demonstrated in the domain of
video understanding, since most existing benchmarks lack the reasoning depth
required to demonstrate the advantages of extended CoT chains. While recent
efforts have proposed benchmarks aimed at video reasoning, the tasks are often
knowledge-driven and do not rely heavily on visual content. To bridge this gap,
we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric,
complex video reasoning. To ensure visual richness and high reasoning
complexity, each video in VideoReasonBench depicts a sequence of fine-grained
operations on a latent state that is only visible in part of the video. The
questions evaluate three escalating levels of video reasoning skills: recalling
observed visual information, inferring the content of latent states, and
predicting information beyond the video. Under such task setting, models have
to precisely recall multiple operations in the video, and perform step-by-step
reasoning to get correct final answers for these questions. Using
VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal
LLMs (MLLMs), finding that most perform poorly on complex video reasoning,
e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced
Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our
investigations on "test-time scaling" further reveal that extended thinking
budget, while offering none or minimal benefits on existing video benchmarks,
is essential for improving the performance on VideoReasonBench.