비디오 모델은 제로샷 추론기로 준비되었는가? MME-CoF 벤치마크를 통한 실증 연구
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
October 30, 2025
저자: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI
초록
최신 비디오 생성 모델은 높은 정밀도와 시간적 일관성을 갖춘 비디오를 생성할 수 있어, 상당한 양의 세계 지식을 인코딩하고 있을 가능성을 시사합니다. 사실적인 합성 능력을 넘어, 이러한 모델들은 시각적 인지, 모델링, 조작을 암시하는 새로운 양상을 보여주고 있습니다. 그러나 중요한 질문이 여전히 남아있습니다: 도전적인 시각 추론 시나리오에서 비디오 모델이 제로샷 추론기로 활용될 준비가 되었는가? 본 연구에서는 이 질문을 종합적으로 탐구하기 위한 실증적 연구를 수행하며, 선도적이고 대중적인 Veo-3 모델에 집중합니다. 우리는 공간, 기하학, 물리, 시간, 구현적 논리를 포함한 12가지 차원에 걸쳐 모델의 추론 행동을 평가하여 그 강점과 실패 패턴을 체계적으로 분석합니다. 이 연구를 표준화하기 위해 평가 데이터를 MME-CoF라는 간결한 벤치마크로 정리하여 프레임 연쇄(Chain-of-Frame, CoF) 추론에 대한 깊이 있고 철저한 평가를 가능하게 합니다. 우리의 연구 결과는 현재의 비디오 모델이 단기간의 공간 일관성, 세밀한 그라운딩, 지역적으로 일관된 역학 분야에서 유망한 추론 패턴을 보여주는 반면, 장기적인 인과 추론, 엄격한 기하학적 제약, 추상적 논리 분야에서는 여전히 한계를 보인다는 것을 밝혀냅니다. 전체적으로, 이들은 독립적인 제로샷 추론기로는 아직 신뢰할 만하지 않지만, 전용 추론 모델과 함께 보완적 시각 엔진으로서 고무적인 가능성을 보여줍니다. 프로젝트 페이지: https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent
videos, indicating that they may encode substantial world knowledge. Beyond
realistic synthesis, they also exhibit emerging behaviors indicative of visual
perception, modeling, and manipulation. Yet, an important question still
remains: Are video models ready to serve as zero-shot reasoners in challenging
visual reasoning scenarios? In this work, we conduct an empirical study to
comprehensively investigate this question, focusing on the leading and popular
Veo-3. We evaluate its reasoning behavior across 12 dimensions, including
spatial, geometric, physical, temporal, and embodied logic, systematically
characterizing both its strengths and failure modes. To standardize this study,
we curate the evaluation data into MME-CoF, a compact benchmark that enables
in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our
findings reveal that while current video models demonstrate promising reasoning
patterns on short-horizon spatial coherence, fine-grained grounding, and
locally consistent dynamics, they remain limited in long-horizon causal
reasoning, strict geometric constraints, and abstract logic. Overall, they are
not yet reliable as standalone zero-shot reasoners, but exhibit encouraging
signs as complementary visual engines alongside dedicated reasoning models.
Project page: https://video-cof.github.io