ChatPaper.aiChatPaper

V-ReasonBench : Vers une suite de benchmarks unifiée pour l'évaluation des capacités de raisonnement des modèles de génération vidéo

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

November 20, 2025
papers.authors: Yang Luo, Xuanlei Zhao, Baijiong Lin, Lingting Zhu, Liyao Tang, Yuqi Liu, Ying-Cong Chen, Shengju Qian, Xin Wang, Yang You
cs.AI

papers.abstract

Les récents progrès des modèles génératifs vidéo, tels que Veo-3, ont révélé des capacités de raisonnement en zero-shot surprenantes, créant un besoin croissant d'évaluation systématique et fiable. Nous présentons V-ReasonBench, un benchmark conçu pour évaluer le raisonnement vidéo selon quatre dimensions clés : la résolution de problèmes structurés, la cognition spatiale, l'inférence basée sur des motifs et la dynamique physique. Ce benchmark est construit à partir de séquences d'images synthétiques et réelles, et propose un ensemble diversifié de tâches vérifiables, reproductibles, évolutives et non ambiguës. Les évaluations de six modèles vidéo de pointe révèlent des différences marquées selon les dimensions, avec des variations significatives dans le raisonnement structuré, spatial, basé sur des motifs et physique. Nous comparons également les modèles vidéo avec des modèles d'images performants, analysons les comportements courants d'hallucination et étudions l'impact de la durée des vidéos sur le raisonnement en chaîne d'images. Globalement, V-ReasonBench offre un cadre unifié et reproductible pour mesurer le raisonnement vidéo et vise à soutenir le développement de modèles dotés de compétences de raisonnement plus fiables et alignées sur l'humain.
English
Recent progress in generative video models, such as Veo-3, has shown surprising zero-shot reasoning abilities, creating a growing need for systematic and reliable evaluation. We introduce V-ReasonBench, a benchmark designed to assess video reasoning across four key dimensions: structured problem-solving, spatial cognition, pattern-based inference, and physical dynamics. The benchmark is built from both synthetic and real-world image sequences and provides a diverse set of answer-verifiable tasks that are reproducible, scalable, and unambiguous. Evaluations of six state-of-the-art video models reveal clear dimension-wise differences, with strong variation in structured, spatial, pattern-based, and physical reasoning. We further compare video models with strong image models, analyze common hallucination behaviors, and study how video duration affects Chain-of-Frames reasoning. Overall, V-ReasonBench offers a unified and reproducible framework for measuring video reasoning and aims to support the development of models with more reliable, human-aligned reasoning skills.
PDF391November 22, 2025