ChatPaper.aiChatPaper

TiViBench: Evaluación del Razonamiento Pensar-en-Video para Modelos Generativos de Video

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

November 17, 2025
Autores: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
cs.AI

Resumen

La rápida evolución de los modelos generativos de video ha desplazado su enfoque desde la producción de resultados visualmente plausibles hacia la resolución de tareas que requieren plausibilidad física y coherencia lógica. Sin embargo, a pesar de recientes avances como el razonamiento de cadena de fotogramas de Veo 3, aún no está claro si estos modelos pueden exhibir capacidades de razonamiento similares a los modelos de lenguaje grandes (LLM). Los puntos de referencia existentes evalúan predominantemente la fidelidad visual y la coherencia temporal, sin capturar habilidades de razonamiento de orden superior. Para cerrar esta brecha, proponemos TiViBench, un benchmark jerárquico diseñado específicamente para evaluar las capacidades de razonamiento de los modelos de generación de imagen a video (I2V). TiViBench evalúa sistemáticamente el razonamiento en cuatro dimensiones: i) Razonamiento Estructural y Búsqueda, ii) Razonamiento de Patrones Espaciales y Visuales, iii) Razonamiento Simbólico y Lógico, y iv) Planificación de Acciones y Ejecución de Tareas, abarcando 24 escenarios de tareas diversos en 3 niveles de dificultad. Mediante evaluaciones exhaustivas, demostramos que los modelos comerciales (por ejemplo, Sora 2, Veo 3.1) presentan un potencial de razonamiento más sólido, mientras que los modelos de código abierto revelan un potencial sin explotar que sigue limitado por la escala de entrenamiento y la diversidad de datos. Para liberar aún más este potencial, presentamos VideoTPO, una estrategia simple pero efectiva en tiempo de prueba inspirada en la optimización de preferencias. Al realizar un autoanálisis mediante LLM sobre los candidatos generados para identificar fortalezas y debilidades, VideoTPO mejora significativamente el rendimiento del razonamiento sin requerir entrenamiento adicional, datos o modelos de recompensa. En conjunto, TiViBench y VideoTPO allanan el camino para evaluar y avanzar en el razonamiento dentro de los modelos de generación de video, sentando una base para la investigación futura en este campo emergente.
English
The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.
PDF424December 1, 2025