Os Modelos de Vídeo Estão Prontos para Raciocínio de Escolha Zero? Um Estudo Empírico com o Benchmark MME-CoF
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
October 30, 2025
Autores: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI
Resumo
Os modelos recentes de geração de vídeo podem produzir vídeos de alta fidelidade e temporalmente coerentes, indicando que podem codificar conhecimento substancial sobre o mundo. Além da síntese realista, eles também exibem comportamentos emergentes indicativos de percepção visual, modelagem e manipulação. No entanto, uma questão importante permanece: Os modelos de vídeo estão prontos para atuar como sistemas de raciocínio *zero-shot* em cenários desafiadores de raciocínio visual? Neste trabalho, realizamos um estudo empírico para investigar essa questão de forma abrangente, focando no popular e líder Veo-3. Avaliamos seu comportamento de raciocínio em 12 dimensões, incluindo lógica espacial, geométrica, física, temporal e incorporada, caracterizando sistematicamente seus pontos fortes e modos de falha. Para padronizar este estudo, organizamos os dados de avaliação no MME-CoF, um benchmark compacto que permite uma avaliação aprofundada e minuciosa do raciocínio em Cadeia de Quadros (Chain-of-Frame, CoF). Nossas descobertas revelam que, embora os modelos de vídeo atuais demonstrem padrões de raciocínio promissores em coerência espacial de curto prazo, ancoragem refinada (*fine-grained grounding*) e dinâmicas localmente consistentes, eles permanecem limitados no raciocínio causal de longo prazo, em restrições geométricas rigorosas e em lógica abstrata. No geral, eles ainda não são confiáveis como sistemas de raciocínio *zero-shot* autônomos, mas exibem sinais encorajadores como motores visuais complementares junto a modelos de raciocínio dedicados. Página do projeto: https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent
videos, indicating that they may encode substantial world knowledge. Beyond
realistic synthesis, they also exhibit emerging behaviors indicative of visual
perception, modeling, and manipulation. Yet, an important question still
remains: Are video models ready to serve as zero-shot reasoners in challenging
visual reasoning scenarios? In this work, we conduct an empirical study to
comprehensively investigate this question, focusing on the leading and popular
Veo-3. We evaluate its reasoning behavior across 12 dimensions, including
spatial, geometric, physical, temporal, and embodied logic, systematically
characterizing both its strengths and failure modes. To standardize this study,
we curate the evaluation data into MME-CoF, a compact benchmark that enables
in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our
findings reveal that while current video models demonstrate promising reasoning
patterns on short-horizon spatial coherence, fine-grained grounding, and
locally consistent dynamics, they remain limited in long-horizon causal
reasoning, strict geometric constraints, and abstract logic. Overall, they are
not yet reliable as standalone zero-shot reasoners, but exhibit encouraging
signs as complementary visual engines alongside dedicated reasoning models.
Project page: https://video-cof.github.io