ChatPaper.aiChatPaper

MMGR: Многомодальное генеративное рассуждение

MMGR: Multi-Modal Generative Reasoning

December 16, 2025
Авторы: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI

Аннотация

Видеофундаментальные модели генерируют визуально реалистичный и временно согласованный контент, но их надежность как симуляторов мира зависит от того, учитывают ли они физические, логические и пространственные ограничения. Существующие метрики, такие как Frechet Video Distance (FVD), делают акцент на перцепционном качестве и игнорируют ошибки в рассуждениях, включая нарушения причинно-следственных связей, законов физики и глобальной согласованности. Мы представляем MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark) — принципиальную систему оценки, основанную на пяти способностях к рассуждению: физической, логической, 3D-пространственной, 2D-пространственной и временной. MMGR оценивает генеративные рассуждения в трех областях: абстрактное мышление (ARC-AGI, Судоку), навигация в окружающей среде (навигация и локализация в реальном 3D-мире) и здравый смысл в физике (спорт и композиционные взаимодействия). MMGR применяет детализированные метрики, требующие целостной корректности как для генерации видео, так и для генерации изображений. Мы провели сравнительный анализ ведущих видео-моделей (Veo-3, Sora-2, Wan-2.2) и изображений (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), выявив значительные разрывы в производительности между доменами. Модели демонстрируют умеренный успех в задачах на физический здравый смысл, но показывают низкие результаты в абстрактном мышлении (точность ниже 10% на ARC-AGI) и испытывают трудности с долгосрочным пространственным планированием в условиях окружающей среды. Наш анализ выявляет ключевые ограничения современных моделей, включая чрезмерную зависимость от перцептивных данных, слабую согласованность глобального состояния и целевые функции, поощряющие визуальную правдоподобность в ущерб причинной корректности. MMGR предлагает унифицированный диагностический бенчмарк и путь к созданию генеративных моделей мира, учитывающих рассуждения.
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.
PDF1022December 18, 2025