VideoReasonBench: Kunnen MLLM's visueel-gerichte complexe videoredenenering uitvoeren?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
May 29, 2025
Auteurs: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
cs.AI
Samenvatting
Recente studies hebben aangetoond dat lange ketens van gedachtegangen (CoT) de prestaties van grote taalmodellen (LLMs) aanzienlijk kunnen verbeteren bij complexe taken. Dit voordeel moet echter nog worden aangetoond op het gebied van videobegrip, aangezien de meeste bestaande benchmarks niet de vereiste redeneerdiepte hebben om de voordelen van uitgebreide CoT-ketens te demonstreren. Hoewel recente inspanningen benchmarks hebben voorgesteld die gericht zijn op videoredenering, zijn de taken vaak kennisgedreven en niet sterk afhankelijk van visuele inhoud. Om deze kloof te overbruggen, introduceren we VideoReasonBench, een benchmark ontworpen om visiegerichte, complexe videoredenering te evalueren. Om visuele rijkdom en hoge redeneercomplexiteit te garanderen, toont elke video in VideoReasonBench een reeks fijnmazige handelingen op een latente toestand die slechts in een deel van de video zichtbaar is. De vragen evalueren drie oplopende niveaus van videoredeneervaardigheden: het herinneren van waargenomen visuele informatie, het afleiden van de inhoud van latente toestanden en het voorspellen van informatie die verder gaat dan de video. In een dergelijke taakopstelling moeten modellen meerdere handelingen in de video precies herinneren en stap-voor-stap redeneren om de juiste eindantwoorden op deze vragen te krijgen. Met behulp van VideoReasonBench evalueren we uitgebreid 18 state-of-the-art multimodale LLMs (MLLMs), waarbij we vaststellen dat de meeste slecht presteren op complexe videoredenering, bijvoorbeeld GPT-4o behaalt slechts 6,9% nauwkeurigheid, terwijl het denk-verbeterde Gemini-2.5-Pro anderen significant overtreft met 56,0% nauwkeurigheid. Onze onderzoeken naar "test-time scaling" onthullen verder dat een uitgebreid denkbudget, hoewel het geen of minimale voordelen biedt op bestaande videobenchmarks, essentieel is voor het verbeteren van de prestaties op VideoReasonBench.
English
Recent studies have shown that long chain-of-thought (CoT) reasoning can
significantly enhance the performance of large language models (LLMs) on
complex tasks. However, this benefit is yet to be demonstrated in the domain of
video understanding, since most existing benchmarks lack the reasoning depth
required to demonstrate the advantages of extended CoT chains. While recent
efforts have proposed benchmarks aimed at video reasoning, the tasks are often
knowledge-driven and do not rely heavily on visual content. To bridge this gap,
we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric,
complex video reasoning. To ensure visual richness and high reasoning
complexity, each video in VideoReasonBench depicts a sequence of fine-grained
operations on a latent state that is only visible in part of the video. The
questions evaluate three escalating levels of video reasoning skills: recalling
observed visual information, inferring the content of latent states, and
predicting information beyond the video. Under such task setting, models have
to precisely recall multiple operations in the video, and perform step-by-step
reasoning to get correct final answers for these questions. Using
VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal
LLMs (MLLMs), finding that most perform poorly on complex video reasoning,
e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced
Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our
investigations on "test-time scaling" further reveal that extended thinking
budget, while offering none or minimal benefits on existing video benchmarks,
is essential for improving the performance on VideoReasonBench.