ChatPaper.aiChatPaper

Pensar en Marcos: Cómo el Contexto Visual y el Escalado en Tiempo de Prueba Potencian el Razonamiento en Video

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

January 28, 2026
Autores: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
cs.AI

Resumen

Los modelos de visión y lenguaje han sobresalido en el razonamiento textual, pero a menudo presentan dificultades en la comprensión espacial de grano fino y en la planificación de acciones continuas, fallando al simular la dinámica requerida para el razonamiento visual complejo. En este trabajo, formulamos el razonamiento visual mediante modelos de generación de video, postulando que los fotogramas generados pueden actuar como pasos intermedios de razonamiento entre estados iniciales y soluciones. Evaluamos su capacidad en dos regímenes distintos: Navegación en Laberintos para planificación secuencial discreta con bajo cambio visual y Rompecabezas Tangram para manipulación continua con alto cambio visual. Nuestros experimentos revelan tres hallazgos críticos: (1) Generalización Robusta Cero-Shot: En ambas tareas, el modelo demuestra un rendimiento sólido en distribuciones de datos no vistas sin ajuste específico. (2) Contexto Visual: El modelo utiliza efectivamente el contexto visual como control explícito, como iconos de agentes y formas de tangram, permitiéndole mantener alta consistencia visual y adaptar su capacidad de planificación robustamente a patrones no vistos. (3) Escalado Visual en Tiempo de Prueba: Observamos una ley de escalado en tiempo de prueba para planificación secuencial; aumentar la longitud del video generado (presupuesto de inferencia visual) permite una mejor generalización cero-shot hacia trayectorias espacial y temporalmente complejas. Estos hallazgos sugieren que la generación de video no es meramente una herramienta multimedia, sino un paradigma escalable y generalizable para el razonamiento visual.
English
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.
PDF133February 7, 2026