Готовы ли видеомодели к рассуждениям с нулевым обучением? Эмпирическое исследование на базе бенчмарка MME-CoF
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
October 30, 2025
Авторы: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI
Аннотация
Современные модели генерации видео способны создавать видео высокой четкости с временной согласованностью, что указывает на возможное наличие в них значительных знаний о мире. Помимо реалистичного синтеза, они также демонстрируют зарождающиеся способности, свидетельствующие о зрительном восприятии, моделировании и манипулировании. Однако важный вопрос остается открытым: готовы ли видео-модели выступать в роли решателей задач с нулевым обучением (zero-shot) в сложных сценариях визуального мышления? В данной работе мы проводим эмпирическое исследование для всестороннего изучения этого вопроса, сосредоточившись на ведущей и популярной модели Veo-3. Мы оцениваем ее способности к рассуждению по 12 направлениям, включая пространственную, геометрическую, физическую, временную логику и логику воплощенного взаимодействия, систематически характеризуя как ее сильные стороны, так и типичные ошибки. Для стандартизации исследования мы сформировали набор оценочных данных MME-CoF — компактный бенчмарк, позволяющий провести глубокую и тщательную оценку рассуждений по цепочке кадров (Chain-of-Frame, CoF). Наши результаты показывают, что хотя современные видео-модели демонстрируют обнадеживающие паттерны рассуждений в области краткосрочной пространственной согласованности, точного позиционирования и локально последовательной динамики, они остаются ограниченными в возможностях долгосрочного каузального reasoning, строгих геометрических ограничений и абстрактной логики. В целом, они еще не являются надежными самостоятельными решателями с нулевым обучением, но проявляют обнадеживающие признаки в качестве вспомогательных визуальных механизмов в паре со специализированными моделями рассуждений. Страница проекта: https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent
videos, indicating that they may encode substantial world knowledge. Beyond
realistic synthesis, they also exhibit emerging behaviors indicative of visual
perception, modeling, and manipulation. Yet, an important question still
remains: Are video models ready to serve as zero-shot reasoners in challenging
visual reasoning scenarios? In this work, we conduct an empirical study to
comprehensively investigate this question, focusing on the leading and popular
Veo-3. We evaluate its reasoning behavior across 12 dimensions, including
spatial, geometric, physical, temporal, and embodied logic, systematically
characterizing both its strengths and failure modes. To standardize this study,
we curate the evaluation data into MME-CoF, a compact benchmark that enables
in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our
findings reveal that while current video models demonstrate promising reasoning
patterns on short-horizon spatial coherence, fine-grained grounding, and
locally consistent dynamics, they remain limited in long-horizon causal
reasoning, strict geometric constraints, and abstract logic. Overall, they are
not yet reliable as standalone zero-shot reasoners, but exhibit encouraging
signs as complementary visual engines alongside dedicated reasoning models.
Project page: https://video-cof.github.io