ChatPaper.aiChatPaper

V-ReasonBench: Hacia un Conjunto Unificado de Pruebas de Razonamiento para Modelos de Generación de Vídeo

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

November 20, 2025
Autores: Yang Luo, Xuanlei Zhao, Baijiong Lin, Lingting Zhu, Liyao Tang, Yuqi Liu, Ying-Cong Chen, Shengju Qian, Xin Wang, Yang You
cs.AI

Resumen

Los avances recientes en modelos generativos de video, como Veo-3, han demostrado sorprendentes capacidades de razonamiento en modo zero-shot, generando una creciente necesidad de evaluación sistemática y confiable. Presentamos V-ReasonBench, un punto de referencia diseñado para evaluar el razonamiento en video a través de cuatro dimensiones clave: resolución estructurada de problemas, cognición espacial, inferencia basada en patrones y dinámica física. Este punto de referencia se construye a partir de secuencias de imágenes tanto sintéticas como del mundo real y ofrece un conjunto diverso de tareas verificables con respuestas que son reproducibles, escalables y no ambiguas. Las evaluaciones de seis modelos de video de última generación revelan diferencias claras en cada dimensión, con una variación significativa en el razonamiento estructurado, espacial, basado en patrones y físico. Además, comparamos modelos de video con modelos de imagen robustos, analizamos comportamientos comunes de alucinación y estudiamos cómo la duración del video afecta el razonamiento en cadena de fotogramas. En general, V-ReasonBench ofrece un marco unificado y reproducible para medir el razonamiento en video y tiene como objetivo apoyar el desarrollo de modelos con habilidades de razonamiento más confiables y alineadas con el ser humano.
English
Recent progress in generative video models, such as Veo-3, has shown surprising zero-shot reasoning abilities, creating a growing need for systematic and reliable evaluation. We introduce V-ReasonBench, a benchmark designed to assess video reasoning across four key dimensions: structured problem-solving, spatial cognition, pattern-based inference, and physical dynamics. The benchmark is built from both synthetic and real-world image sequences and provides a diverse set of answer-verifiable tasks that are reproducible, scalable, and unambiguous. Evaluations of six state-of-the-art video models reveal clear dimension-wise differences, with strong variation in structured, spatial, pattern-based, and physical reasoning. We further compare video models with strong image models, analyze common hallucination behaviors, and study how video duration affects Chain-of-Frames reasoning. Overall, V-ReasonBench offers a unified and reproducible framework for measuring video reasoning and aims to support the development of models with more reliable, human-aligned reasoning skills.
PDF391November 22, 2025