ChatPaper.aiChatPaper

¿Pueden los simuladores del mundo razonar? Gen-ViRe: Un punto de referencia generativo de razonamiento visual

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

November 17, 2025
Autores: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI

Resumen

Si bien el prompting de Cadena de Pensamiento (CoT, por sus siglas en inglés) permite un razonamiento simbólico sofisticado en los LLM, permanece confinado al texto discreto y no puede simular la dinámica continua, gobernada por la física, del mundo real. Los recientes modelos de generación de video han surgido como simuladores mundiales potenciales a través del razonamiento de Cadena de Fotogramas (CoF, por sus siglas en inglés) — materializando el pensamiento como secuencias visuales fotograma a fotograma, donde cada fotograma representa un paso de razonamiento con base física. A pesar de demostraciones convincentes, persiste un desafío: los puntos de referencia existentes, que se centran en la fidelidad o la alineación, no evalúan el razonamiento CoF y, por lo tanto, no pueden medir las capacidades cognitivas centrales en la planificación de múltiples pasos, la lógica algorítmica o la extrapolación de patrones abstractos. Este vacío en la evaluación impide una comprensión sistemática de las capacidades del modelo y una guía fundamentada para su mejora. Presentamos Gen-ViRe (Punto de Referencia de Razonamiento Visual Generativo), un marco basado en la ciencia cognitiva y las aplicaciones de IA del mundo real, que descompone el razonamiento CoF en seis dimensiones cognitivas — desde la lógica perceptual hasta la planificación abstracta — y 24 subtareas. Mediante la curación de datos de múltiples fuentes, protocolos de prompting mínimos y una evaluación híbrida asistida por VLM con criterios detallados, Gen-ViRe ofrece la primera evaluación cuantitativa de los modelos de video como razonadores. Nuestros experimentos en sistemas de última generación (SOTA) revelan discrepancias sustanciales entre la impresionante calidad visual y la profundidad real de razonamiento, estableciendo líneas base y herramientas de diagnóstico para avanzar en el desarrollo de simuladores mundiales genuinos.
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.
PDF343December 1, 2025