Les modèles vidéo sont-ils prêts à raisonner en mode zéro-shot ? Une étude empirique avec le benchmark MME-CoF

papers.abstract

Les modèles récents de génération vidéo sont capables de produire des vidéos haute fidélité et temporellement cohérentes, ce qui suggère qu'ils pourraient encoder des connaissances substantielles sur le monde. Au-delà de la synthèse réaliste, ils présentent également des comportements émergents indicatifs de perception visuelle, de modélisation et de manipulation. Pourtant, une question importante demeure : ces modèles vidéo sont-ils prêts à servir de raisonneurs zero-shot dans des scénarios complexes de raisonnement visuel ? Dans ce travail, nous menons une étude empirique pour investiguer cette question de manière exhaustive, en nous concentrant sur le modèle leader et populaire Veo-3. Nous évaluons son comportement raisonneur selon 12 dimensions, incluant la logique spatiale, géométrique, physique, temporelle et incarnée, en caractérisant systématiquement ses forces et ses modes d'échec. Pour standardiser cette étude, nous organisons les données d'évaluation dans MME-CoF, un benchmark compact permettant une évaluation approfondie et rigoureuse du raisonnement par Chaîne d'Images (Chain-of-Frame, CoF). Nos résultats révèlent que si les modèles vidéo actuels démontrent des schémas de raisonnement prometteurs en matière de cohérence spatiale à court terme, d'ancrage fin et de dynamiques localement cohérentes, ils restent limités dans le raisonnement causal à long terme, les contraintes géométriques strictes et la logique abstraite. Globalement, ils ne sont pas encore fiables en tant que raisonneurs zero-shot autonomes, mais présentent des signes encourageants en tant qu'engins visuels complémentaires aux côtés de modèles de raisonnement dédiés. Page du projet : https://video-cof.github.io

English

Recent video generation models can produce high-fidelity, temporally coherent videos, indicating that they may encode substantial world knowledge. Beyond realistic synthesis, they also exhibit emerging behaviors indicative of visual perception, modeling, and manipulation. Yet, an important question still remains: Are video models ready to serve as zero-shot reasoners in challenging visual reasoning scenarios? In this work, we conduct an empirical study to comprehensively investigate this question, focusing on the leading and popular Veo-3. We evaluate its reasoning behavior across 12 dimensions, including spatial, geometric, physical, temporal, and embodied logic, systematically characterizing both its strengths and failure modes. To standardize this study, we curate the evaluation data into MME-CoF, a compact benchmark that enables in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our findings reveal that while current video models demonstrate promising reasoning patterns on short-horizon spatial coherence, fine-grained grounding, and locally consistent dynamics, they remain limited in long-horizon causal reasoning, strict geometric constraints, and abstract logic. Overall, they are not yet reliable as standalone zero-shot reasoners, but exhibit encouraging signs as complementary visual engines alongside dedicated reasoning models. Project page: https://video-cof.github.io

Les modèles vidéo sont-ils prêts à raisonner en mode zéro-shot ? Une étude empirique avec le benchmark MME-CoF

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

papers.abstract

Support