VideoReasonBench: Können MLLMs visuell-zentrierte komplexe Videoanalysen durchführen?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
May 29, 2025
Autoren: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
cs.AI
Zusammenfassung
Aktuelle Studien haben gezeigt, dass lange Ketten von Denkschritten (Chain-of-Thought, CoT) die Leistung großer Sprachmodelle (Large Language Models, LLMs) bei komplexen Aufgaben erheblich verbessern können. Dieser Vorteil konnte jedoch noch nicht im Bereich des Videoverständnisses nachgewiesen werden, da die meisten bestehenden Benchmarks die erforderliche Tiefe des Denkprozesses vermissen lassen, um die Vorteile erweiterter CoT-Ketten zu demonstrieren. Obwohl neuere Bemühungen Benchmarks für das Videoverständnis vorgeschlagen haben, sind die Aufgaben oft wissensbasiert und stützen sich nicht stark auf visuelle Inhalte. Um diese Lücke zu schließen, stellen wir VideoReasonBench vor, einen Benchmark, der darauf abzielt, visuell zentriertes, komplexes Videoverständnis zu bewerten. Um visuelle Vielfalt und hohe Denkkomplexität sicherzustellen, zeigt jedes Video in VideoReasonBench eine Abfolge fein abgestimmter Operationen auf einem latenten Zustand, der nur in Teilen des Videos sichtbar ist. Die Fragen bewerten drei ansteigende Ebenen des Videoverständnisses: das Abrufen beobachteter visueller Informationen, das Erschließen des Inhalts latenter Zustände und das Vorhersagen von Informationen, die über das Video hinausgehen. In einer solchen Aufgabenstellung müssen Modelle präzise mehrere Operationen im Video abrufen und schrittweise Denkprozesse durchführen, um korrekte Endantworten auf diese Fragen zu erhalten. Mit VideoReasonBench bewerten wir umfassend 18 state-of-the-art multimodale LLMs (MLLMs) und stellen fest, dass die meisten bei komplexem Videoverständnis schlecht abschneiden, z.B. erreicht GPT-4o nur eine Genauigkeit von 6,9 %, während das denkverstärkte Gemini-2.5-Pro mit 56,0 % Genauigkeit deutlich besser abschneidet. Unsere Untersuchungen zur „Testzeit-Skalierung“ zeigen weiterhin, dass ein erweiterter Denkbudget, der auf bestehenden Video-Benchmarks keinen oder nur minimalen Nutzen bietet, entscheidend für die Verbesserung der Leistung auf VideoReasonBench ist.
English
Recent studies have shown that long chain-of-thought (CoT) reasoning can
significantly enhance the performance of large language models (LLMs) on
complex tasks. However, this benefit is yet to be demonstrated in the domain of
video understanding, since most existing benchmarks lack the reasoning depth
required to demonstrate the advantages of extended CoT chains. While recent
efforts have proposed benchmarks aimed at video reasoning, the tasks are often
knowledge-driven and do not rely heavily on visual content. To bridge this gap,
we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric,
complex video reasoning. To ensure visual richness and high reasoning
complexity, each video in VideoReasonBench depicts a sequence of fine-grained
operations on a latent state that is only visible in part of the video. The
questions evaluate three escalating levels of video reasoning skills: recalling
observed visual information, inferring the content of latent states, and
predicting information beyond the video. Under such task setting, models have
to precisely recall multiple operations in the video, and perform step-by-step
reasoning to get correct final answers for these questions. Using
VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal
LLMs (MLLMs), finding that most perform poorly on complex video reasoning,
e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced
Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our
investigations on "test-time scaling" further reveal that extended thinking
budget, while offering none or minimal benefits on existing video benchmarks,
is essential for improving the performance on VideoReasonBench.Summary
AI-Generated Summary