ChatPaper.aiChatPaper

Können Weltsimulatoren schlussfolgern? Gen-ViRe: Ein generativer Benchmark für visuelles Reasoning

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

November 17, 2025
papers.authors: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI

papers.abstract

Während Chain-of-Thought (CoT) Prompting anspruchsvolles symbolisches Schließen in LLMs ermöglicht, bleibt es auf diskreten Text beschränkt und kann die kontinuierlichen, physikalisch gesteuerten Dynamiken der realen Welt nicht simulieren. Kürzlich aufgetauchte Videogenerationsmodelle haben sich als potenzielle Weltsimulatoren durch Chain-of-Frames (CoF) Reasoning erwiesen – dabei materialisiert sich der Gedanke als bildweise visuelle Sequenz, wobei jedes Einzelbild einen physikalisch fundierten Denkschritt repräsentiert. Trotz beeindruckender Demonstrationen besteht eine Herausforderung fort: Bestehende Benchmarks, die sich auf Wiedergabetreue oder Übereinstimmung konzentrieren, bewerten das CoF-Reasoning nicht und können somit keine Kernfähigkeiten im mehrstufigen Planen, algorithmischen Logikverständnis oder in der Extrapolation abstrakter Muster messen. Diese Bewertungslücke verhindert ein systematisches Verständnis der Modellfähigkeiten und eine prinzipiengeleitete Verbesserung. Wir stellen Gen-ViRe (Generative Visual Reasoning Benchmark) vor, ein Rahmenwerk, das in der Kognitionswissenschaft und realen KI-Anwendungen verankert ist und CoF-Reasoning in sechs kognitive Dimensionen – von der Wahrnehmungslogik bis zur abstrakten Planung – und 24 Teilaufgaben zerlegt. Durch Multi-Source-Datenkuratierung, minimale Prompting-Protokolle und eine hybride, VLM-unterstützte Evaluation mit detaillierten Kriterien liefert Gen-ViRe die erste quantitative Bewertung von Videomodellen als Reasoning-Systeme. Unsere Experimente mit State-of-the-Art-Systemen zeigen erhebliche Diskrepanzen zwischen beeindruckender visueller Qualität und der tatsächlichen Reasoning-Tiefe auf und etablieren so Baselines und Diagnosewerkzeuge, um die Entwicklung echter Weltsimulatoren voranzutreiben.
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.
PDF343December 1, 2025