ChatPaper.aiChatPaper

Les simulateurs du monde peuvent-ils raisonner ? Gen-ViRe : Un benchmark génératif de raisonnement visuel

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

November 17, 2025
papers.authors: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI

papers.abstract

Si le *prompting* en chaîne de pensée (Chain-of-Thought, CoT) permet un raisonnement symbolique sophistiqué dans les grands modèles de langage (LLM), il reste confiné au texte discret et ne peut simuler la dynamique continue, régie par les lois de la physique, du monde réel. Les récents modèles de génération vidéo sont apparus comme des simulateurs du monde potentiels grâce au raisonnement en chaîne de trames (Chain-of-Frames, CoF) – matérialisant la pensée sous forme de séquences visuelles image par image, chaque trame représentant une étape de raisonnement physiquement ancrée. Malgré des démonstrations convaincantes, un défi persiste : les benchmarks existants, axés sur la fidélité ou l'alignement, n'évaluent pas le raisonnement CoF et ne peuvent donc pas mesurer les capacités cognitives fondamentales en planification multi-étapes, en logique algorithmique ou en extrapolation de motifs abstraits. Ce vide évaluatif empêche une compréhension systématique des capacités des modèles et un guidage principiel pour leur amélioration. Nous présentons Gen-ViRe (Generative Visual Reasoning Benchmark), un cadre fondé sur les sciences cognitives et les applications réelles de l'IA, qui décompose le raisonnement CoF en six dimensions cognitives – allant de la logique perceptuelle à la planification abstraite – et 24 sous-tâches. Grâce à une curation de données multi-sources, des protocoles de *prompting* minimaux et une évaluation hybride assistée par modèles de vision et langage (VLM) avec des critères détaillés, Gen-ViRe offre la première évaluation quantitative des modèles vidéo en tant que raisonneurs. Nos expériences sur les systèmes à la pointe (SOTA) révèlent des écarts substantiels entre une qualité visuelle impressionnante et la profondeur réelle de raisonnement, établissant des bases de référence et des outils de diagnostic pour faire progresser les véritables simulateurs du monde.
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.
PDF343December 1, 2025