ChatPaper.aiChatPaper

MMGR: Ragionamento Generativo Multimodale

MMGR: Multi-Modal Generative Reasoning

December 16, 2025
Autori: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI

Abstract

I modelli video foundation generano contenuti visivamente realistici e temporalmente coerenti, ma la loro affidabilità come simulatori del mondo dipende dalla loro capacità di catturare i vincoli fisici, logici e spaziali. Le metriche esistenti, come la Frechet Video Distance (FVD), enfatizzano la qualità percettiva e trascurano i fallimenti di ragionamento, incluse le violazioni di causalità, fisica e coerenza globale. Introduciamo MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), un framework di valutazione strutturato basato su cinque abilità di ragionamento: Fisico, Logico, Spaziale 3D, Spaziale 2D e Temporale. MMGR valuta il ragionamento generativo in tre domini: Ragionamento Astratto (ARC-AGI, Sudoku), Navigazione Embodied (navigazione e localizzazione 3D nel mondo reale) e Senso Comune Fisico (sport e interazioni compositive). MMGR applica metriche granulari che richiedono una correttezza olistica sia per la generazione di video che di immagini. Effettuiamo un benchmark dei principali modelli video (Veo-3, Sora-2, Wan-2.2) e di immagini (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), rivelando forti lacune prestazionali tra i domini. I modelli mostrano un successo moderato nei compiti di Senso Comune Fisico, ma performano male nel Ragionamento Astratto (precisione inferiore al 10% su ARC-AGI) e hanno difficoltà con la pianificazione spaziale a lungo orizzonte in contesti embodied. La nostra analisi evidenzia le principali limitazioni dei modelli attuali, tra cui un'eccessiva dipendenza dai dati percettivi, una debole coerenza dello stato globale e obiettivi che premiano la plausibilità visiva a scapito della correttezza causale. MMGR offre un benchmark diagnostico unificato e una strada verso modelli generativi mondiali consapevoli del ragionamento.
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.
PDF1022December 18, 2025