ChatPaper.aiChatPaper

Kunnen Wereldsimulatoren Redeneren? Gen-ViRe: Een Generatieve Visuele Redeneerbenchmark

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

November 17, 2025
Auteurs: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI

Samenvatting

Hoewel Chain-of-Thought (CoT) prompting geavanceerd symbolisch redeneren in LLM's mogelijk maakt, blijft het beperkt tot discrete tekst en kan het de continue, door fysica bepaalde dynamiek van de echte wereld niet simuleren. Recente videogeneratiemodellen zijn naar voren gekomen als potentiële wereldsimulatoren via Chain-of-Frames (CoF) redenering – waarbij gedachten worden gematerialiseerd als frame-voor-frame visuele sequenties, waarbij elk frame een fysiek onderbouwde redeneerstap vertegenwoordigt. Ondanks overtuigende demonstraties blijft er een uitdaging bestaan: bestaande benchmarks, gericht op getrouwheid of afstemming, beoordelen CoF-redenering niet en kunnen dus geen kerncognitieve vaardigheden meten op het gebied van meerstapsplanning, algoritmische logica of abstracte patroonextrapolatie. Dit evaluatievacuüm verhindert een systematisch begrip van modelcapaciteiten en een principiële richtlijn voor verbetering. Wij introduceren Gen-ViRe (Generative Visual Reasoning Benchmark), een raamwerk verankerd in de cognitieve wetenschap en real-world AI-toepassingen, dat CoF-redenering opdeelt in zes cognitieve dimensies – van perceptuele logica tot abstracte planning – en 24 subtaken. Door middel van multi-source datacuratie, minimale promptingprotocollen en hybride VLM-ondersteunde evaluatie met gedetailleerde criteria, biedt Gen-ViRe de eerste kwantitatieve beoordeling van videomodellen als redeneerders. Onze experimenten met SOTA-systemen onthullen aanzienlijke discrepanties tussen indrukwekkende visuele kwaliteit en daadwerkelijke redeneerdiepte, en stellen basislijnen en diagnostische hulpmiddelen vast om echte wereldsimulatoren vooruit te helpen.
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.
PDF343December 1, 2025