Les modèles vidéo sont-ils prêts à raisonner en mode zéro-shot ? Une étude empirique avec le benchmark MME-CoF
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
October 30, 2025
papers.authors: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI
papers.abstract
Les modèles récents de génération vidéo sont capables de produire des vidéos haute fidélité et temporellement cohérentes, ce qui suggère qu'ils pourraient encoder des connaissances substantielles sur le monde. Au-delà de la synthèse réaliste, ils présentent également des comportements émergents indicatifs de perception visuelle, de modélisation et de manipulation. Pourtant, une question importante demeure : ces modèles vidéo sont-ils prêts à servir de raisonneurs zero-shot dans des scénarios complexes de raisonnement visuel ? Dans ce travail, nous menons une étude empirique pour investiguer cette question de manière exhaustive, en nous concentrant sur le modèle leader et populaire Veo-3. Nous évaluons son comportement raisonneur selon 12 dimensions, incluant la logique spatiale, géométrique, physique, temporelle et incarnée, en caractérisant systématiquement ses forces et ses modes d'échec. Pour standardiser cette étude, nous organisons les données d'évaluation dans MME-CoF, un benchmark compact permettant une évaluation approfondie et rigoureuse du raisonnement par Chaîne d'Images (Chain-of-Frame, CoF). Nos résultats révèlent que si les modèles vidéo actuels démontrent des schémas de raisonnement prometteurs en matière de cohérence spatiale à court terme, d'ancrage fin et de dynamiques localement cohérentes, ils restent limités dans le raisonnement causal à long terme, les contraintes géométriques strictes et la logique abstraite. Globalement, ils ne sont pas encore fiables en tant que raisonneurs zero-shot autonomes, mais présentent des signes encourageants en tant qu'engins visuels complémentaires aux côtés de modèles de raisonnement dédiés. Page du projet : https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent
videos, indicating that they may encode substantial world knowledge. Beyond
realistic synthesis, they also exhibit emerging behaviors indicative of visual
perception, modeling, and manipulation. Yet, an important question still
remains: Are video models ready to serve as zero-shot reasoners in challenging
visual reasoning scenarios? In this work, we conduct an empirical study to
comprehensively investigate this question, focusing on the leading and popular
Veo-3. We evaluate its reasoning behavior across 12 dimensions, including
spatial, geometric, physical, temporal, and embodied logic, systematically
characterizing both its strengths and failure modes. To standardize this study,
we curate the evaluation data into MME-CoF, a compact benchmark that enables
in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our
findings reveal that while current video models demonstrate promising reasoning
patterns on short-horizon spatial coherence, fine-grained grounding, and
locally consistent dynamics, they remain limited in long-horizon causal
reasoning, strict geometric constraints, and abstract logic. Overall, they are
not yet reliable as standalone zero-shot reasoners, but exhibit encouraging
signs as complementary visual engines alongside dedicated reasoning models.
Project page: https://video-cof.github.io