V-ReasonBench: Naar een Geïntegreerde Redeneerbenchmark Suite voor Videogeneratiemodellen
V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models
November 20, 2025
Auteurs: Yang Luo, Xuanlei Zhao, Baijiong Lin, Lingting Zhu, Liyao Tang, Yuqi Liu, Ying-Cong Chen, Shengju Qian, Xin Wang, Yang You
cs.AI
Samenvatting
Recente vooruitgang in generatieve videomodellen, zoals Veo-3, heeft verrassende zero-shot redeneervaardigheden laten zien, wat een groeiende behoefte creëert aan systematische en betrouwbare evaluatie. Wij introduceren V-ReasonBench, een benchmark die is ontworpen om videoredenering te beoordelen op vier belangrijke dimensies: gestructureerd probleemoplossen, ruimtelijk inzicht, patroongebaseerde inferentie en fysische dynamica. De benchmark is opgebouwd uit zowel synthetische als real-world beeldsequenties en biedt een diverse set van antwoord-verifieerbare taken die reproduceerbaar, schaalbaar en eenduidig zijn. Evaluaties van zes state-of-the-art videomodellen laten duidelijke dimensiegebonden verschillen zien, met sterke variatie in gestructureerd, ruimtelijk, patroongebaseerd en fysisch redeneren. We vergelijken verder videomodellen met sterke beeldmodellen, analyseren veelvoorkomende hallucinatiegedragingen en bestuderen hoe videoduur Chain-of-Frames redeneren beïnvloedt. Over het geheel biedt V-ReasonBench een uniform en reproduceerbaar raamwerk voor het meten van videoredenering en beoogt het de ontwikkeling van modellen met betrouwbaardere, mensgerichte redeneervaardigheden te ondersteunen.
English
Recent progress in generative video models, such as Veo-3, has shown surprising zero-shot reasoning abilities, creating a growing need for systematic and reliable evaluation. We introduce V-ReasonBench, a benchmark designed to assess video reasoning across four key dimensions: structured problem-solving, spatial cognition, pattern-based inference, and physical dynamics. The benchmark is built from both synthetic and real-world image sequences and provides a diverse set of answer-verifiable tasks that are reproducible, scalable, and unambiguous. Evaluations of six state-of-the-art video models reveal clear dimension-wise differences, with strong variation in structured, spatial, pattern-based, and physical reasoning. We further compare video models with strong image models, analyze common hallucination behaviors, and study how video duration affects Chain-of-Frames reasoning. Overall, V-ReasonBench offers a unified and reproducible framework for measuring video reasoning and aims to support the development of models with more reliable, human-aligned reasoning skills.