ChatPaper.aiChatPaper

Os Simuladores de Mundos Podem Racionalizar? Gen-ViRe: Um Benchmark de Raciocínio Visual Generativo

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

November 17, 2025
Autores: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI

Resumo

Embora o prompting de Cadeia de Pensamento (CoT) permita um raciocínio simbólico sofisticado em LLMs, ele permanece confinado a texto discreto e não pode simular a dinâmica contínua, regida pela física, do mundo real. Modelos recentes de geração de vídeo surgiram como simuladores de mundo potenciais por meio do raciocínio de Cadeia de Frames (CoF) — materializando o pensamento como sequências visuais frame a frame, onde cada frame representa uma etapa de raciocínio com base física. Apesar de demonstrações convincentes, um desafio persiste: os benchmarks existentes, focados em fidelidade ou alinhamento, não avaliam o raciocínio CoF e, portanto, não podem medir habilidades cognitivas centrais no planeamento multi-etapa, lógica algorítmica ou extrapolação de padrões abstratos. Este vazio de avaliação impede uma compreensão sistemática das capacidades dos modelos e uma orientação fundamentada para a sua melhoria. Apresentamos o Gen-ViRe (Generative Visual Reasoning Benchmark), um quadro baseado na ciência cognitiva e em aplicações de IA do mundo real, que decompõe o raciocínio CoF em seis dimensões cognitivas — desde a lógica perceptual até ao planeamento abstrato — e 24 subtarefas. Através de uma curadoria de dados multi-fonte, protocolos de prompting mínimos e avaliação híbrida assistida por VLM com critérios detalhados, o Gen-ViRe fornece a primeira avaliação quantitativa de modelos de vídeo como sistemas de raciocínio. As nossas experiências em sistemas de última geração revelam discrepâncias substanciais entre a qualidade visual impressionante e a profundidade real do raciocínio, estabelecendo linhas de base e ferramentas de diagnóstico para avançar no desenvolvimento de simuladores de mundo genuínos.
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.
PDF363February 27, 2026