Zijn Videomodellen Klaar als Zero-Shot Redeneerders? Een Empirische Studie met de MME-CoF Benchmark
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
October 30, 2025
Auteurs: Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
cs.AI
Samenvatting
Recente videogeneratiemodellen kunnen hoogwaardige, temporeel coherente video's produceren, wat erop wijst dat ze mogelijk aanzienlijke wereldkennis coderen. Naast realistische synthese vertonen ze ook opkomend gedrag dat wijst op visuele perceptie, modellering en manipulatie. Toch blijft een belangrijke vraag onbeantwoord: Zijn videomodellen klaar om te dienen als zero-shot-redeneerders in uitdagende visuele redeneerscenario's? In dit werk voeren we een empirische studie uit om deze vraag uitgebreid te onderzoeken, met focus op het toonaangevende en populaire Veo-3. We evalueren zijn redeneergedrag langs 12 dimensies, waaronder ruimtelijke, geometrische, fysieke, temporele en belichaamde logica, waarbij we systematisch zowel zijn sterktes als faalpatronen in kaart brengen. Om deze studie te standaardiseren, hebben we de evaluatiedata samengebracht in MME-CoF, een compacte benchmark die een diepgaande en grondige beoordeling van Chain-of-Frame (CoF)-redeneren mogelijk maakt. Onze bevindingen tonen aan dat hoewel huidige videomodellen veelbelovende redeneerpatronen vertonen op het gebied van kortetermijnruimtelijke coherentie, fijnmazige grounding en lokaal consistente dynamiek, ze beperkt blijven in langetermijncausaal redeneren, strikte geometrische beperkingen en abstracte logica. Al met al zijn ze nog niet betrouwbaar als zelfstandige zero-shot-redeneerders, maar vertonen ze bemoedigende tekenen als complementaire visuele engines naast toegewijde redeneermodellen. Projectpagina: https://video-cof.github.io
English
Recent video generation models can produce high-fidelity, temporally coherent
videos, indicating that they may encode substantial world knowledge. Beyond
realistic synthesis, they also exhibit emerging behaviors indicative of visual
perception, modeling, and manipulation. Yet, an important question still
remains: Are video models ready to serve as zero-shot reasoners in challenging
visual reasoning scenarios? In this work, we conduct an empirical study to
comprehensively investigate this question, focusing on the leading and popular
Veo-3. We evaluate its reasoning behavior across 12 dimensions, including
spatial, geometric, physical, temporal, and embodied logic, systematically
characterizing both its strengths and failure modes. To standardize this study,
we curate the evaluation data into MME-CoF, a compact benchmark that enables
in-depth and thorough assessment of Chain-of-Frame (CoF) reasoning. Our
findings reveal that while current video models demonstrate promising reasoning
patterns on short-horizon spatial coherence, fine-grained grounding, and
locally consistent dynamics, they remain limited in long-horizon causal
reasoning, strict geometric constraints, and abstract logic. Overall, they are
not yet reliable as standalone zero-shot reasoners, but exhibit encouraging
signs as complementary visual engines alongside dedicated reasoning models.
Project page: https://video-cof.github.io