세계 시뮬레이터는 추론이 가능한가? Gen-ViRe: 생성형 시각적 추론 벤치마크
Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark
November 17, 2025
저자: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI
초록
체인 오브 쏘트(CoT) 프롬프팅이 대규모 언어 모델(LLM)에서 정교한 기호 추론을 가능하게 하지만, 이는 여전히 이산적인 텍스트에 국한되어 실제 세계의 연속적이고 물리 법칙에 따른 역학을 시뮬레이션할 수 없습니다. 최근 등장한 비디오 생성 모델들은 체인 오브 프레임(CoF) 추론을 통해 잠재적 세계 시뮬레이터로 부상하고 있습니다. 이는 사고를 프레임별 시각적 시퀀스로 구체화하며, 각 프레임은 물리적 근거를 가진 추론 단계를 나타냅니다. 설득력 있는 데모에도 불구하고 지속적인 과제가 있습니다: 충실도나 정렬에 초점을 맞춘 기존 벤치마크는 CoF 추론을 평가하지 않아 다단계 계획, 알고리즘적 논리, 추상적 패턴 외삽과 같은 핵심 인지 능력을 측정할 수 없습니다. 이러한 평가 공백은 모델 능력에 대한 체계적 이해와 개선을 위한 원칙적 지침을 방해합니다. 우리는 인지 과학과 실제 AI 응용 분야에 기반을 둔 Gen-ViRe(Generative Visual Reasoning Benchmark) 프레임워크를 소개합니다. 이는 CoF 추론을 지각 논리에서 추상적 계획에 이르는 6개의 인지 차원과 24개의 하위 작업으로 분해합니다. 다중 소스 데이터 큐레이션, 최소한의 프롬프팅 프로토콜, 상세한 기준을 갖춘 VLM 지원 하이브리드 평가를 통해 Gen-ViRe는 비디오 모델을 추론자로서 최초의 정량적 평가를 제공합니다. 최첨단 시스템에 대한 우리의 실험은 인상적인 시각적 품질과 실제 추론 깊이 사이의 상당한 차이를 드러내며, 진정한 세계 시뮬레이터 발전을 위한 기준선과 진단 도구를 확립합니다.
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.