I modelli video sono pronti come ragionatori zero-shot? Uno studio empirico con il benchmark MME-CoF
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
October 30, 2025
Autori: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI
Abstract
I recenti modelli di generazione video sono in grado di produrre video ad alta fedeltà e coerenza temporale, suggerendo che possano codificare una sostanziale conoscenza del mondo. Oltre alla sintesi realistica, essi mostrano anche comportamenti emergenti indicativi di percezione visiva, modellazione e manipolazione. Tuttavia, rimane una domanda importante: i modelli video sono pronti per fungere da ragionatori zero-shot in scenari complessi di ragionamento visivo? In questo lavoro, conduciamo uno studio empirico per indagare esaustivamente questa questione, concentrandoci sul leader di mercato Veo-3. Valutiamo il suo comportamento di ragionamento lungo 12 dimensioni, inclusa logica spaziale, geometrica, fisica, temporale ed embodied, caratterizzando sistematicamente sia i suoi punti di forza che le modalità di fallimento. Per standardizzare lo studio, organizziamo i dati di valutazione in MME-CoF, un benchmark compatto che consente una valutazione approfondita e completa del ragionamento a Catena di Frame (CoF). I nostri risultati rivelano che, sebbene gli attuali modelli video dimostrino pattern di ragionamento promettenti sulla coerenza spaziale a breve orizzonte, il grounding granulare e le dinamiche localmente consistenti, essi rimangono limitati nel ragionamento causale a lungo termine, nei vincoli geometrici rigorosi e nella logica astratta. Nel complesso, non sono ancora affidabili come ragionatori zero-shot autonomi, ma mostrano segnali incoraggianti come motori visivi complementari affiancati a modelli di ragionamento dedicati. Pagina del progetto: https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent
videos, indicating that they may encode substantial world knowledge. Beyond
realistic synthesis, they also exhibit emerging behaviors indicative of visual
perception, modeling, and manipulation. Yet, an important question still
remains: Are video models ready to serve as zero-shot reasoners in challenging
visual reasoning scenarios? In this work, we conduct an empirical study to
comprehensively investigate this question, focusing on the leading and popular
Veo-3. We evaluate its reasoning behavior across 12 dimensions, including
spatial, geometric, physical, temporal, and embodied logic, systematically
characterizing both its strengths and failure modes. To standardize this study,
we curate the evaluation data into MME-CoF, a compact benchmark that enables
in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our
findings reveal that while current video models demonstrate promising reasoning
patterns on short-horizon spatial coherence, fine-grained grounding, and
locally consistent dynamics, they remain limited in long-horizon causal
reasoning, strict geometric constraints, and abstract logic. Overall, they are
not yet reliable as standalone zero-shot reasoners, but exhibit encouraging
signs as complementary visual engines alongside dedicated reasoning models.
Project page: https://video-cof.github.io