MMGR : Raisonnement Génératif Multimodal
MMGR: Multi-Modal Generative Reasoning
December 16, 2025
papers.authors: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI
papers.abstract
Les modèles de fondation vidéo génèrent un contenu visuellement réaliste et temporellement cohérent, mais leur fiabilité en tant que simulateurs du monde dépend de leur capacité à capturer les contraintes physiques, logiques et spatiales. Les métriques existantes telles que la Fréchet Video Distance (FVD) privilégient la qualité perceptuelle et négligent les échecs de raisonnement, incluant les violations de causalité, de physique et de cohérence globale. Nous présentons MMGR (Évaluation et Référentiel de Raisonnement Générative Multi-Modal), un cadre d'évaluation structuré reposant sur cinq capacités de raisonnement : Physique, Logique, Spatial 3D, Spatial 2D et Temporel. MMGR évalue le raisonnement génératif dans trois domaines : le Raisonnement Abstrait (ARC-AGI, Sudoku), la Navigation Incarnée (navigation et localisation en 3D du monde réel) et le Sens Commun Physique (sports et interactions compositionnelles). MMGR applique des métriques fines qui exigent une exactitude holistique à la fois pour la génération vidéo et image. Nous évaluons les principaux modèles vidéo (Veo-3, Sora-2, Wan-2.2) et image (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), révélant d'importants écarts de performance entre les domaines. Les modèles montrent un succès modéré sur les tâches de Sens Commun Physique mais performent faiblement en Raisonnement Abstrait (moins de 10 % de précision sur ARC-AGI) et peinent avec la planification spatiale à long terme dans des contextes incarnés. Notre analyse met en lumière des limitations clés des modèles actuels, incluant une dépendance excessive aux données perceptuelles, une faible cohérence de l'état global et des objectifs qui récompensent la plausibilité visuelle au détriment de l'exactitude causale. MMGR propose un référentiel de diagnostic unifié et une voie vers des modèles génératifs du monde conscients du raisonnement.
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.