MMGR: Raciocínio Generativo Multimodal
MMGR: Multi-Modal Generative Reasoning
December 16, 2025
Autores: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI
Resumo
Os modelos de fundação de vídeo geram conteúdo visualmente realista e temporalmente coerente, mas sua confiabilidade como simuladores do mundo depende de sua capacidade de capturar restrições físicas, lógicas e espaciais. Métricas existentes, como a Distância de Fréchet em Vídeo (FVD), enfatizam a qualidade perceptual e negligenciam falhas de raciocínio, incluindo violações de causalidade, física e consistência global. Apresentamos o MMGR (Avaliação e Benchmark de Raciocínio Generativo Multimodal), uma estrutura de avaliação fundamentada em cinco habilidades de raciocínio: Físico, Lógico, Espacial 3D, Espacial 2D e Temporal. O MMGR avalia o raciocínio generativo em três domínios: Raciocínio Abstrato (ARC-AGI, Sudoku), Navegação Corporificada (navegação e localização 3D do mundo real) e Senso Comum Físico (esportes e interações composicionais). O MMGR aplica métricas de granularidade fina que exigem correção holística tanto na geração de vídeo quanto de imagem. Avaliamos modelos de vídeo líderes (Veo-3, Sora-2, Wan-2.2) e modelos de imagem (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revelando fortes lacunas de desempenho entre os domínios. Os modelos mostram sucesso moderado em tarefas de Senso Comum Físico, mas desempenham mal em Raciocínio Abstrato (abaixo de 10% de precisão no ARC-AGI) e lutam com o planejamento espacial de longo horizonte em ambientes corporificados. Nossa análise destaca limitações-chave nos modelos atuais, incluindo excesso de confiança em dados perceptivos, fraca consistência do estado global e objetivos que recompensam a plausibilidade visual em detrimento da correção causal. O MMGR oferece um benchmark de diagnóstico unificado e um caminho para modelos generativos de mundo conscientes do raciocínio.
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.