ChatPaper.aiChatPaper

ビデオモデルはゼロショット推論器として準備ができているか? MME-CoFベンチマークによる実証研究

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

October 30, 2025
著者: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI

要旨

最近のビデオ生成モデルは、高精細で時間的一貫性のある動画を生成可能であり、これらが相当量の世界知識を符号化している可能性を示唆しています。現実的な合成を超えて、これらのモデルは視覚的知覚、モデリング、操作を示す創発的振る舞いも見せます。しかし、重要な疑問が残っています:ビデオモデルは困難な視覚推論シナリオにおいて、ゼロショット推論器として機能する準備が整っているのでしょうか?本研究では、この疑問を包括的に調査する実証的研究を行い、主要で人気のあるVeo-3に焦点を当てます。空間的、幾何学的、物理的、時間的、具身化された論理を含む12次元にわたってその推論行動を評価し、その強みと失敗モードを系統的に特徴付けます。この研究を標準化するため、評価データをMME-CoFに精選しました。これはフレーム連鎖(CoF)推論の詳細かつ徹底的な評価を可能にするコンパクトなベンチマークです。私たちの調査結果は、現在のビデオモデルが短期的な空間的一貫性、細粒度の接地、局所的に一貫した力学において有望な推論パターンを示す一方で、長期的な因果推論、厳密な幾何学的制約、抽象的論理においては限界があることを明らかにしています。全体として、現時点では単独のゼロショット推論器として信頼できるものではありませんが、専用の推論モデルと併用する補助的視覚エンジンとしての可能性を示しています。プロジェクトページ: https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent videos, indicating that they may encode substantial world knowledge. Beyond realistic synthesis, they also exhibit emerging behaviors indicative of visual perception, modeling, and manipulation. Yet, an important question still remains: Are video models ready to serve as zero-shot reasoners in challenging visual reasoning scenarios? In this work, we conduct an empirical study to comprehensively investigate this question, focusing on the leading and popular Veo-3. We evaluate its reasoning behavior across 12 dimensions, including spatial, geometric, physical, temporal, and embodied logic, systematically characterizing both its strengths and failure modes. To standardize this study, we curate the evaluation data into MME-CoF, a compact benchmark that enables in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our findings reveal that while current video models demonstrate promising reasoning patterns on short-horizon spatial coherence, fine-grained grounding, and locally consistent dynamics, they remain limited in long-horizon causal reasoning, strict geometric constraints, and abstract logic. Overall, they are not yet reliable as standalone zero-shot reasoners, but exhibit encouraging signs as complementary visual engines alongside dedicated reasoning models. Project page: https://video-cof.github.io
PDF332December 2, 2025