VideoReasonBench: Können MLLMs visuell-zentrierte komplexe Videoanalysen durchführen?

papers.abstract

Aktuelle Studien haben gezeigt, dass lange Ketten von Denkschritten (Chain-of-Thought, CoT) die Leistung großer Sprachmodelle (Large Language Models, LLMs) bei komplexen Aufgaben erheblich verbessern können. Dieser Vorteil konnte jedoch noch nicht im Bereich des Videoverständnisses nachgewiesen werden, da die meisten bestehenden Benchmarks die erforderliche Tiefe des Denkprozesses vermissen lassen, um die Vorteile erweiterter CoT-Ketten zu demonstrieren. Obwohl neuere Bemühungen Benchmarks für das Videoverständnis vorgeschlagen haben, sind die Aufgaben oft wissensbasiert und stützen sich nicht stark auf visuelle Inhalte. Um diese Lücke zu schließen, stellen wir VideoReasonBench vor, einen Benchmark, der darauf abzielt, visuell zentriertes, komplexes Videoverständnis zu bewerten. Um visuelle Vielfalt und hohe Denkkomplexität sicherzustellen, zeigt jedes Video in VideoReasonBench eine Abfolge fein abgestimmter Operationen auf einem latenten Zustand, der nur in Teilen des Videos sichtbar ist. Die Fragen bewerten drei ansteigende Ebenen des Videoverständnisses: das Abrufen beobachteter visueller Informationen, das Erschließen des Inhalts latenter Zustände und das Vorhersagen von Informationen, die über das Video hinausgehen. In einer solchen Aufgabenstellung müssen Modelle präzise mehrere Operationen im Video abrufen und schrittweise Denkprozesse durchführen, um korrekte Endantworten auf diese Fragen zu erhalten. Mit VideoReasonBench bewerten wir umfassend 18 state-of-the-art multimodale LLMs (MLLMs) und stellen fest, dass die meisten bei komplexem Videoverständnis schlecht abschneiden, z.B. erreicht GPT-4o nur eine Genauigkeit von 6,9 %, während das denkverstärkte Gemini-2.5-Pro mit 56,0 % Genauigkeit deutlich besser abschneidet. Unsere Untersuchungen zur „Testzeit-Skalierung“ zeigen weiterhin, dass ein erweiterter Denkbudget, der auf bestehenden Video-Benchmarks keinen oder nur minimalen Nutzen bietet, entscheidend für die Verbesserung der Leistung auf VideoReasonBench ist.

English

Recent studies have shown that long chain-of-thought (CoT) reasoning can significantly enhance the performance of large language models (LLMs) on complex tasks. However, this benefit is yet to be demonstrated in the domain of video understanding, since most existing benchmarks lack the reasoning depth required to demonstrate the advantages of extended CoT chains. While recent efforts have proposed benchmarks aimed at video reasoning, the tasks are often knowledge-driven and do not rely heavily on visual content. To bridge this gap, we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric, complex video reasoning. To ensure visual richness and high reasoning complexity, each video in VideoReasonBench depicts a sequence of fine-grained operations on a latent state that is only visible in part of the video. The questions evaluate three escalating levels of video reasoning skills: recalling observed visual information, inferring the content of latent states, and predicting information beyond the video. Under such task setting, models have to precisely recall multiple operations in the video, and perform step-by-step reasoning to get correct final answers for these questions. Using VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal LLMs (MLLMs), finding that most perform poorly on complex video reasoning, e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our investigations on "test-time scaling" further reveal that extended thinking budget, while offering none or minimal benefits on existing video benchmarks, is essential for improving the performance on VideoReasonBench.

VideoReasonBench: Können MLLMs visuell-zentrierte komplexe Videoanalysen durchführen?

VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

papers.abstract

Support