ChatPaper.aiChatPaper

MMGR: Multi-modale Generatieve Redenering

MMGR: Multi-Modal Generative Reasoning

December 16, 2025
Auteurs: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI

Samenvatting

Videofoundationmodellen genereren visueel realistische en temporeel coherente inhoud, maar hun betrouwbaarheid als wereldsimulators hangt af van of ze fysieke, logische en ruimtelijke beperkingen vastleggen. Bestaande metrieken zoals Frechet Video Distance (FVD) benadrukken perceptuele kwaliteit en negeren redeneerfouten, waaronder schendingen van causaliteit, fysica en globale consistentie. Wij introduceren MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), een principieel evaluatieraamwerk gebaseerd op vijf redeneervaardigheden: Fysiek, Logisch, 3D-Ruimtelijk, 2D-Ruimtelijk en Temporeel. MMGR evalueert generatief redeneren in drie domeinen: Abstract Redeneren (ARC-AGI, Sudoku), Belichaamde Navigatie (navigatie en lokalisatie in de echte 3D-wereld) en Fysiek Gezond Verstand (sport en compositionele interacties). MMGR past fijnmazige metrieken toe die holistische correctheid vereisen voor zowel videogeneratie als beeldgeneratie. We testen toonaangevende videomodellen (Veo-3, Sora-2, Wan-2.2) en beeldmodellen (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), wat aanzienlijke prestatiekloofjes tussen de domeinen aan het licht brengt. Modellen vertonen matig succes bij taken rond Fysiek Gezond Verstand, maar presteren slecht bij Abstract Redeneren (minder dan 10 procent nauwkeurigheid op ARC-AGI) en hebben moeite met ruimtelijke planning over lange termijn in belichaamde omgevingen. Onze analyse belicht belangrijke beperkingen in huidige modellen, waaronder overmatige afhankelijkheid van perceptuele data, zwakke consistentie van de globale staat, en doelstellingen die visuele geloofwaardigheid boven causale correctheid belonen. MMGR biedt een uniform diagnostisch benchmark en een weg naar redeneringsbewuste generatieve wereldmodellen.
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.
PDF1022December 18, 2025