MMGR: 다중 모드 생성적 추론
MMGR: Multi-Modal Generative Reasoning
December 16, 2025
저자: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI
초록
비디오 파운데이션 모델은 시각적으로 사실적이고 시간적으로 일관된 콘텐츠를 생성하지만, 세계 시뮬레이터로서의 신뢰도는 물리적, 논리적, 공간적 제약 조건을 포착하는지에 달려 있습니다. 프레셰 비디오 거리(FVD)와 같은 기존 지표는 지각적 품질을 강조하지만 인과관계, 물리 법칙, 전역 일관성 위반을 포함한 추론 실패를 간과합니다. 본 연구는 물리, 논리, 3D 공간, 2D 공간, 시간이라는 다섯 가지 추론 능력을 기반으로 한 원칙적인 평가 프레임워크인 MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)을 소개합니다. MMGR은 추상 추론(ARC-AGI, 스도쿠), 구현된 내비게이션(실세계 3D 내비게이션 및 위치 추정), 물리적 상식(스포츠 및 구성적 상호작용)이라는 세 가지 영역에 걸쳐 생성적 추론을 평가합니다. MMGR은 비디오와 이미지 생성 모두에 걸친 전체론적 정확성을 요구하는 세분화된 지표를 적용합니다. 우리는 주요 비디오 모델(Veo-3, Sora-2, Wan-2.2)과 이미지 모델(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)을 벤치마크하여 영역별로 현저한 성능 격차를 확인했습니다. 모델들은 물리적 상식 작업에서는 어느 정도 성공을 보였지만, 추상 추론(ARC-AGI 정확도 10% 미만)에서는 낮은 성능을 보였으며 구현된 환경에서 장기간의 공간 계획에는 어려움을 겪었습니다. 우리의 분석은 지각 데이터에 대한 과도한 의존, 약한 전역 상태 일관성, 인과적 정확성보다 시각적 타당성을 보상하는 목적 함수 등 현재 모델의 주요 한계를 부각합니다. MMGR은 통합 진단 벤치마크이자 추론을 고려한 생성적 세계 모델로 나아가는 길을 제시합니다.
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.