MMGR: Multi-modales generatives Denken
MMGR: Multi-Modal Generative Reasoning
December 16, 2025
papers.authors: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI
papers.abstract
Videofoundation-Modelle erzeugen visuell realistische und zeitlich kohärente Inhalte, doch ihre Zuverlässigkeit als Weltsimulatoren hängt davon ab, ob sie physikalische, logische und räumliche Constraints erfassen. Bestehende Metriken wie die Frechet Video Distance (FVD) betonen die perzeptive Qualität und übersehen Reasoning-Fehler, einschließlich Verstößen gegen Kausalität, Physik und globale Konsistenz. Wir stellen MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark) vor, einen principled Evaluierungsrahmen basierend auf fünf Reasoning-Fähigkeiten: Physikalisches, Logisches, 3D-Räumliches, 2D-Räumliches und Temporales Reasoning. MMGR evaluiert generatives Reasoning in drei Domänen: Abstraktes Reasoning (ARC-AGI, Sudoku), Embodied Navigation (Realwelt-3D-Navigation und Lokalisierung) und Physical Commonsense (Sport und kompositionelle Interaktionen). MMGR wendet feinkörnige Metriken an, die holistische Korrektheit über Video- und Bildgenerierung hinweg erfordern. Wir benchmarken führende Videomodelle (Veo-3, Sora-2, Wan-2.2) und Bildmodelle (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image) und zeigen erhebliche Leistungsunterschiede zwischen den Domänen auf. Modelle zeigen mäßigen Erfolg bei Physical Commonsense-Aufgaben, schneiden jedoch schlecht bei Abstraktem Reasoning ab (unter 10 % Genauigkeit bei ARC-AGI) und haben Schwierigkeiten mit langfristiger räumlicher Planung in embodied Settings. Unsere Analyse hebt zentrale Limitationen aktueller Modelle hervor, darunter Überbetonung perzeptiver Daten, schwache globale Zustandskonsistenz und Zielvorgaben, die visuelle Plausibilität über kausale Korrektheit belohnen. MMGR bietet einen einheitlichen Diagnose-Benchmark und einen Weg hin zu reasoning-bewussten generativen Weltmodellen.
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.