ChatPaper.aiChatPaper

¿Están los modelos de video preparados como razonadores de cero disparos? Un estudio empírico con el benchmark MME-CoF

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

October 30, 2025
Autores: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI

Resumen

Los modelos recientes de generación de vídeo pueden producir vídeos de alta fidelidad y coherencia temporal, lo que indica que pueden codificar un conocimiento sustancial del mundo. Más allá de la síntesis realista, también exhiben comportamientos emergentes indicativos de percepción visual, modelado y manipulación. Sin embargo, una pregunta importante sigue en el aire: ¿Están los modelos de vídeo preparados para servir como razonadores de cero disparos en escenarios desafiantes de razonamiento visual? En este trabajo, realizamos un estudio empírico para investigar exhaustivamente esta pregunta, centrándonos en el destacado y popular Veo-3. Evaluamos su comportamiento de razonamiento en 12 dimensiones, incluyendo lógica espacial, geométrica, física, temporal y corporeizada, caracterizando sistemáticamente tanto sus fortalezas como sus modos de fallo. Para estandarizar este estudio, organizamos los datos de evaluación en MME-CoF, un benchmark compacto que permite una evaluación profunda y minuciosa del razonamiento en Cadena de Fotogramas (CoF). Nuestros hallazgos revelan que, si bien los modelos de vídeo actuales demuestran patrones de razonamiento prometedores en coherencia espacial de horizonte corto, grounding de grano fino y dinámicas localmente consistentes, siguen siendo limitados en el razonamiento causal de horizonte largo, las restricciones geométricas estrictas y la lógica abstracta. En general, aún no son confiables como razonadores autónomos de cero disparos, pero exhiben señales alentadoras como motores visuales complementarios junto con modelos de razonamiento dedicados. Página del proyecto: https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent videos, indicating that they may encode substantial world knowledge. Beyond realistic synthesis, they also exhibit emerging behaviors indicative of visual perception, modeling, and manipulation. Yet, an important question still remains: Are video models ready to serve as zero-shot reasoners in challenging visual reasoning scenarios? In this work, we conduct an empirical study to comprehensively investigate this question, focusing on the leading and popular Veo-3. We evaluate its reasoning behavior across 12 dimensions, including spatial, geometric, physical, temporal, and embodied logic, systematically characterizing both its strengths and failure modes. To standardize this study, we curate the evaluation data into MME-CoF, a compact benchmark that enables in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our findings reveal that while current video models demonstrate promising reasoning patterns on short-horizon spatial coherence, fine-grained grounding, and locally consistent dynamics, they remain limited in long-horizon causal reasoning, strict geometric constraints, and abstract logic. Overall, they are not yet reliable as standalone zero-shot reasoners, but exhibit encouraging signs as complementary visual engines alongside dedicated reasoning models. Project page: https://video-cof.github.io
PDF332December 2, 2025