ChatPaper.aiChatPaper

비디오를 통한 추론: 미로 해결 과제를 통한 비디오 모델의 추론 능력 첫 평가

Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

November 19, 2025
저자: Cheng Yang, Haiyuan Wan, Yiran Peng, Xin Cheng, Zhaoyang Yu, Jiayi Zhang, Junchi Yu, Xinlei Yu, Xiawu Zheng, Dongzhan Zhou, Chenglin Wu
cs.AI

초록

비디오 모델은 일관된 동작 역학을 가진 고품질 비디오 생성에서 놀라운 성공을 거두었습니다. 언어 모델링에서 텍스트 생성에서 텍스트 기반 추론으로의 발전과 유사하게, 비디오 모델의 발전은 우리에게 다음과 같은 질문을 던지게 합니다: 비디오 모델이 비디오 생성을 통해 추론할 수 있을까? 이산적인 텍스트 코퍼스와 비교하여, 비디오는 명시적인 공간 배치와 시간적 연속성에 추론을 기반으로 하여 공간 추론을 위한 이상적인 기질을 제공합니다. 본 연구에서는 비디오를 통한 추론 패러다임을 탐구하고, 비디오 모델의 추론 능력을 체계적으로 평가하도록 설계된 포괄적인 벤치마크인 VR-Bench를 소개합니다. 본질적으로 공간 계획과 다단계 추론을 요구하는 미로 해결 과제에 기반한 VR-Bench는 5가지 미로 유형과 다양한 시각적 스타일로 구성된 7,920개의 절차적 생성 비디오를 포함합니다. 우리의 실증적 분석은 SFT가 비디오 모델의 추론 능력을 효율적으로 이끌어낼 수 있음을 보여줍니다. 비디오 모델은 추론 과정에서 더 강력한 공간 인식을 보이며, 주요 VLM을 능가하고 다양한 시나리오, 과제, 복잡도 수준에서 잘 일반화됩니다. 우리는 또한 추론 시 다양한 샘플링이 추론 신뢰도를 10-20% 향상시키는 테스트 타임 스케일링 효과를 추가로 발견했습니다. 이러한 발견들은 공간 추론 과제에 대한 비디오를 통한 추론의 독특한 잠재력과 확장성을 강조합니다.
English
Video Models have achieved remarkable success in high-fidelity video generation with coherent motion dynamics. Analogous to the development from text generation to text-based reasoning in language modeling, the development of video models motivates us to ask: Can video models reason via video generation? Compared with the discrete text corpus, video grounds reasoning in explicit spatial layouts and temporal continuity, which serves as an ideal substrate for spatial reasoning. In this work, we explore the reasoning via video paradigm and introduce VR-Bench -- a comprehensive benchmark designed to systematically evaluate video models' reasoning capabilities. Grounded in maze-solving tasks that inherently require spatial planning and multi-step reasoning, VR-Bench contains 7,920 procedurally generated videos across five maze types and diverse visual styles. Our empirical analysis demonstrates that SFT can efficiently elicit the reasoning ability of video model. Video models exhibit stronger spatial perception during reasoning, outperforming leading VLMs and generalizing well across diverse scenarios, tasks, and levels of complexity. We further discover a test-time scaling effect, where diverse sampling during inference improves reasoning reliability by 10--20%. These findings highlight the unique potential and scalability of reasoning via video for spatial reasoning tasks.
PDF734December 2, 2025