ChatPaper.aiChatPaper

Рассуждение через видео: первая оценка способностей видеомоделей к рассуждению с помощью задач по прохождению лабиринтов

Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

November 19, 2025
Авторы: Cheng Yang, Haiyuan Wan, Yiran Peng, Xin Cheng, Zhaoyang Yu, Jiayi Zhang, Junchi Yu, Xinlei Yu, Xiawu Zheng, Dongzhan Zhou, Chenglin Wu
cs.AI

Аннотация

Видеомодели достигли значительных успехов в генерации высококачественных видео с согласованной динамикой движения. По аналогии с развитием от генерации текста к текстовым рассуждениям в языковом моделировании, прогресс видеомоделей побуждает нас задаться вопросом: способны ли видеомодели к рассуждениям посредством генерации видео? В отличие от дискретного текстового корпуса, видео обеспечивает grounding рассуждений в явных пространственных структурах и временной непрерывности, что делает его идеальным субстратом для пространственных умозаключений. В данной работе мы исследуем парадигму reasoning via video и представляем VR-Bench — комплексный бенчмарк, разработанный для систематической оценки способностей видеомоделей к рассуждениям. Основываясь на задачах решения лабиринтов, которые по своей природе требуют пространственного планирования и многошаговых рассуждений, VR-Bench содержит 7 920 процедурно сгенерированных видео пяти типов лабиринтов в различных визуальных стилях. Наш эмпирический анализ показывает, что SFT эффективно раскрывает способность видеомоделей к рассуждениям. Видеомодели демонстрируют более сильное пространственное восприятие в процессе рассуждений, превосходя ведущие VLM и успешно обобщаясь на разнообразные сценарии, задачи и уровни сложности. Мы также обнаруживаем эффект масштабирования на этапе тестирования: разнообразный сэмплинг во время вывода повышает надежность рассуждений на 10–20%. Эти результаты подчеркивают уникальный потенциал и масштабируемость парадигмы reasoning via video для задач пространственного мышления.
English
Video Models have achieved remarkable success in high-fidelity video generation with coherent motion dynamics. Analogous to the development from text generation to text-based reasoning in language modeling, the development of video models motivates us to ask: Can video models reason via video generation? Compared with the discrete text corpus, video grounds reasoning in explicit spatial layouts and temporal continuity, which serves as an ideal substrate for spatial reasoning. In this work, we explore the reasoning via video paradigm and introduce VR-Bench -- a comprehensive benchmark designed to systematically evaluate video models' reasoning capabilities. Grounded in maze-solving tasks that inherently require spatial planning and multi-step reasoning, VR-Bench contains 7,920 procedurally generated videos across five maze types and diverse visual styles. Our empirical analysis demonstrates that SFT can efficiently elicit the reasoning ability of video model. Video models exhibit stronger spatial perception during reasoning, outperforming leading VLMs and generalizing well across diverse scenarios, tasks, and levels of complexity. We further discover a test-time scaling effect, where diverse sampling during inference improves reasoning reliability by 10--20%. These findings highlight the unique potential and scalability of reasoning via video for spatial reasoning tasks.
PDF734December 2, 2025