Sind Videomodelle als Null-Shot-Denker bereit? Eine empirische Studie mit dem MME-CoF-Benchmark.
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
October 30, 2025
papers.authors: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI
papers.abstract
Aktuelle Videogenerierungsmodelle können hochwertige, zeitlich kohärente Videos erzeugen, was darauf hindeutet, dass sie möglicherweise umfangreiches Weltwissen kodieren. Neben realistischer Synthese zeigen sie auch aufkeimende Verhaltensweisen, die auf visuelle Wahrnehmung, Modellierung und Manipulation hindeuten. Dennoch bleibt eine wichtige Frage bestehen: Sind Videomodelle bereit, als Zero-Shot-Reasoner in anspruchsvollen visuellen Reasoning-Szenarien zu dienen? In dieser Arbeit führen wir eine empirische Studie durch, um diese Frage umfassend zu untersuchen, mit Fokus auf das führende und populäre Veo-3. Wir bewerten sein Reasoning-Verhalten über 12 Dimensionen hinweg, darunter räumliche, geometrische, physikalische, zeitliche und verkörperte Logik, und charakterisieren systematisch sowohl seine Stärken als auch seine Fehlermodi. Um diese Studie zu standardisieren, haben wir die Evaluierungsdaten zu MME-CoF aufbereitet, einem kompakten Benchmark, das eine tiefgehende und gründliche Bewertung von Chain-of-Frame (CoF) Reasoning ermöglicht. Unsere Ergebnisse zeigen, dass aktuelle Videomodelle zwar vielversprechende Reasoning-Muster bei kurzzeitigem räumlichem Zusammenhalt, feinkörniger Verankerung und lokal konsistenter Dynamik aufweisen, sie jedoch in langzeitigem kausalen Reasoning, strengen geometrischen Zwängen und abstrakter Logik begrenzt bleiben. Insgesamt sind sie noch nicht zuverlässig als eigenständige Zero-Shot-Reasoner, zeigen aber ermutigende Anzeichen als komplementäre visuelle Engine neben spezialisierten Reasoning-Modellen. Projektseite: https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent
videos, indicating that they may encode substantial world knowledge. Beyond
realistic synthesis, they also exhibit emerging behaviors indicative of visual
perception, modeling, and manipulation. Yet, an important question still
remains: Are video models ready to serve as zero-shot reasoners in challenging
visual reasoning scenarios? In this work, we conduct an empirical study to
comprehensively investigate this question, focusing on the leading and popular
Veo-3. We evaluate its reasoning behavior across 12 dimensions, including
spatial, geometric, physical, temporal, and embodied logic, systematically
characterizing both its strengths and failure modes. To standardize this study,
we curate the evaluation data into MME-CoF, a compact benchmark that enables
in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our
findings reveal that while current video models demonstrate promising reasoning
patterns on short-horizon spatial coherence, fine-grained grounding, and
locally consistent dynamics, they remain limited in long-horizon causal
reasoning, strict geometric constraints, and abstract logic. Overall, they are
not yet reliable as standalone zero-shot reasoners, but exhibit encouraging
signs as complementary visual engines alongside dedicated reasoning models.
Project page: https://video-cof.github.io