ChatPaper.aiChatPaper

Могут ли мировые симуляторы рассуждать? Gen-ViRe: Генеративный бенчмарк для проверки зрительного мышления

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

November 17, 2025
Авторы: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI

Аннотация

Хотя метод Chain-of-Thought (CoT) позволяет крупным языковым моделям выполнять сложные символьные рассуждения, он остается ограниченным дискретным текстом и не может моделировать непрерывную, управляемую физикой динамику реального мира. Недавно появившиеся модели генерации видео стали потенциальными симуляторами мира благодаря рассуждениям по методу Chain-of-Frames (CoF) — материализации мысли в виде последовательности визуальных кадров, где каждый кадр представляет собой физически обоснованный шаг рассуждений. Несмотря на впечатляющие демонстрации, сохраняется проблема: существующие бенчмарки, ориентированные на точность или соответствие, не оценивают рассуждения CoF и, следовательно, не могут измерить ключевые когнитивные способности в области многошагового планирования, алгоритмической логики или экстраполяции абстрактных паттернов. Этот пробел в оценке препятствует систематическому пониманию возможностей моделей и принципиальному руководству по их улучшению. Мы представляем Gen-ViRe (Generative Visual Reasoning Benchmark) — фреймворк, основанный на когнитивной науке и реальных применениях ИИ, который декомпозирует рассуждения CoF на шесть когнитивных измерений (от перцептивной логики до абстрактного планирования) и 24 подзадачи. Благодаря курированию данных из множества источников, минималистичным промпт-протоколам и гибридной оценке с помощью VLMs по детализированным критериям, Gen-ViRe обеспечивает первую количественную оценку видео-моделей как систем рассуждений. Наши эксперименты с передовыми системами выявляют существенные расхождения между впечатляющим визуальным качеством и реальной глубиной рассуждений, устанавливая базовые уровни и диагностические инструменты для развития подлинных симуляторов мира.
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.
PDF343December 1, 2025