I Simulator del Mondo Possono Ragionare? Gen-ViRe: Un Benchmark Generativo per il Ragionamento Visivo
Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark
November 17, 2025
Autori: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI
Abstract
Sebbene il prompting a Catena di Pensiero (Chain-of-Thought, CoT) consenta sofisticati ragionamenti simbolici nei LLM, esso rimane confinato al testo discreto e non può simulare le dinamiche continue, governate dalla fisica, del mondo reale. Recenti modelli di generazione video sono emersi come potenziali simulatori del mondo attraverso il ragionamento a Catena di Fotogrammi (Chain-of-Frames, CoF) – materializzando il pensiero in sequenze visive fotogramma per fotogramma, dove ogni fotogramma rappresenta un passo di ragionamento fisicamente fondato. Nonostante dimostrazioni convincenti, una sfida persiste: i benchmark esistenti, concentrandosi su fedeltà o allineamento, non valutano il ragionamento CoF e quindi non possono misurare le capacità cognitive fondamentali nella pianificazione a più fasi, nella logica algoritmica o nell'estrapolazione di pattern astratti. Questa lacuna valutativa impedisce una comprensione sistematica delle capacità dei modelli e una guida principiata per il miglioramento. Introduciamo Gen-ViRe (Generative Visual Reasoning Benchmark), un framework basato sulle scienze cognitive e sulle applicazioni IA del mondo reale, che scompone il ragionamento CoF in sei dimensioni cognitive – dalla logica percettiva alla pianificazione astratta – e 24 sotto-compiti. Attraverso una curatela di dati multi-sorgente, protocolli di prompting minimi e una valutazione ibrida assistita da VLM con criteri dettagliati, Gen-ViRe fornisce la prima valutazione quantitativa dei modelli video in quanto sistemi di ragionamento. I nostri esperimenti su sistemi all'avanguardia rivelano discrepanze sostanziali tra l'impressionante qualità visiva e l'effettiva profondità di ragionamento, stabilendo baseline e strumenti diagnostici per far progredire i veri simulatori del mondo.
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.