ChatPaper.aiChatPaper

MMGR: Razonamiento Generativo Multimodal

MMGR: Multi-Modal Generative Reasoning

December 16, 2025
Autores: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI

Resumen

Los modelos de video de base generan contenido visualmente realista y temporalmente coherente, pero su fiabilidad como simuladores del mundo depende de si capturan las restricciones físicas, lógicas y espaciales. Métricas existentes como la Distancia de Fréchet de Video (FVD) enfatizan la calidad perceptual y pasan por alto fallos de razonamiento, incluyendo violaciones de la causalidad, la física y la coherencia global. Presentamos MMGR (Evaluación y Punto de Referencia de Razonamiento Generativo Multimodal), un marco de evaluación fundamentado en cinco habilidades de razonamiento: Físico, Lógico, Espacial 3D, Espacial 2D y Temporal. MMGR evalúa el razonamiento generativo en tres dominios: Razonamiento Abstracto (ARC-AGI, Sudoku), Navegación Corporizada (navegación y localización en 3D del mundo real) y Sentido Común Físico (deportes e interacciones composicionales). MMGR aplica métricas de grano fino que requieren corrección holística tanto en la generación de video como de imagen. Evaluamos modelos de video líderes (Veo-3, Sora-2, Wan-2.2) y modelos de imagen (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revelando fuertes brechas de rendimiento entre dominios. Los modelos muestran un éxito moderado en tareas de Sentido Común Físico pero rinden pobremente en Razonamiento Abstracto (por debajo del 10% de precisión en ARC-AGI) y tienen dificultades con la planificación espacial de largo horizonte en entornos corporizados. Nuestro análisis destaca limitaciones clave en los modelos actuales, incluyendo una excesiva dependencia de datos perceptuales, una débil coherencia del estado global y objetivos que premian la plausibilidad visual sobre la corrección causal. MMGR ofrece un punto de referencia unificado para diagnóstico y un camino hacia modelos generativos del mundo conscientes del razonamiento.
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.
PDF1183February 7, 2026