ChatPaper.aiChatPaper

V-ReasonBench: Auf dem Weg zu einem einheitlichen Benchmark-Suite für die Bewertung von Video-Generierungsmodellen

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

November 20, 2025
papers.authors: Yang Luo, Xuanlei Zhao, Baijiong Lin, Lingting Zhu, Liyao Tang, Yuqi Liu, Ying-Cong Chen, Shengju Qian, Xin Wang, Yang You
cs.AI

papers.abstract

Jüngste Fortschritte bei generativen Videomodellen, wie Veo-3, haben überraschende Zero-Shot-Fähigkeiten im Bereich des logischen Denkens gezeigt, was einen wachsenden Bedarf an systematischer und zuverlässiger Bewertung schafft. Wir stellen V-ReasonBench vor, einen Benchmark, der entwickelt wurde, um das videobasierte Denken in vier Schlüsseldimensionen zu bewerten: strukturiertes Problemlösen, räumliche Wahrnehmung, musterbasierte Inferenz und physikalische Dynamik. Der Benchmark basiert auf sowohl synthetischen als auch realen Bildsequenzen und bietet eine vielfältige Sammlung von Aufgaben mit überprüfbaren Antworten, die reproduzierbar, skalierbar und eindeutig sind. Die Bewertung von sechs modernsten Videomodellen zeigt deutliche Unterschiede in den einzelnen Dimensionen, mit starken Variationen in strukturiertem, räumlichem, musterbasiertem und physikalischem Denken. Wir vergleichen Videomodelle weiterhin mit leistungsstarken Bildmodellen, analysieren häufige Halluzinationsverhalten und untersuchen, wie die Videodauer das Chain-of-Frames-Denken beeinflusst. Insgesamt bietet V-ReasonBench einen einheitlichen und reproduzierbaren Rahmen zur Messung des videobasierten Denkens und zielt darauf ab, die Entwicklung von Modellen mit zuverlässigeren, menschenähnlichen Denkfähigkeiten zu unterstützen.
English
Recent progress in generative video models, such as Veo-3, has shown surprising zero-shot reasoning abilities, creating a growing need for systematic and reliable evaluation. We introduce V-ReasonBench, a benchmark designed to assess video reasoning across four key dimensions: structured problem-solving, spatial cognition, pattern-based inference, and physical dynamics. The benchmark is built from both synthetic and real-world image sequences and provides a diverse set of answer-verifiable tasks that are reproducible, scalable, and unambiguous. Evaluations of six state-of-the-art video models reveal clear dimension-wise differences, with strong variation in structured, spatial, pattern-based, and physical reasoning. We further compare video models with strong image models, analyze common hallucination behaviors, and study how video duration affects Chain-of-Frames reasoning. Overall, V-ReasonBench offers a unified and reproducible framework for measuring video reasoning and aims to support the development of models with more reliable, human-aligned reasoning skills.
PDF391November 22, 2025