Raciocínio por Vídeo: A Primeira Avaliação das Capacidades de Raciocínio de Modelos de Vídeo através de Tarefas de Resolução de Labirintos

Resumo

Os modelos de vídeo alcançaram sucesso notável na geração de vídeos de alta fidelidade com dinâmicas de movimento coerentes. Analogamente ao desenvolvimento da geração de texto para o raciocínio baseado em texto na modelagem de linguagem, o desenvolvimento de modelos de vídeo motiva-nos a questionar: Podem os modelos de vídeo raciocinar através da geração de vídeo? Comparado com o corpus textual discreto, o vídeo ancora o raciocínio em layouts espaciais explícitos e continuidade temporal, servindo como um substrato ideal para o raciocínio espacial. Neste trabalho, exploramos o paradigma de raciocínio via vídeo e introduzimos o VR-Bench – um benchmark abrangente concebido para avaliar sistematicamente as capacidades de raciocínio de modelos de vídeo. Ancorado em tarefas de resolução de labirintos que requerem inerentemente planeamento espacial e raciocínio multi-etapa, o VR-Bench contém 7.920 vídeos gerados proceduralmente em cinco tipos de labirinto e estilos visuais diversificados. A nossa análise empírica demonstra que o Fine-Tuning Supervisionado (SFT) pode eliciar eficientemente a capacidade de raciocínio do modelo de vídeo. Os modelos de vídeo exibem perceção espacial mais forte durante o raciocínio, superando os principais Modelos de Linguagem Visual (VLMs) e generalizando bem em diversos cenários, tarefas e níveis de complexidade. Descobrimos ainda um efeito de escalonamento em tempo de teste, onde a amostragem diversificada durante a inferência melhora a confiabilidade do raciocínio em 10–20%. Estes resultados destacam o potencial único e a escalabilidade do raciocínio via vídeo para tarefas de raciocínio espacial.

English

Video Models have achieved remarkable success in high-fidelity video generation with coherent motion dynamics. Analogous to the development from text generation to text-based reasoning in language modeling, the development of video models motivates us to ask: Can video models reason via video generation? Compared with the discrete text corpus, video grounds reasoning in explicit spatial layouts and temporal continuity, which serves as an ideal substrate for spatial reasoning. In this work, we explore the reasoning via video paradigm and introduce VR-Bench -- a comprehensive benchmark designed to systematically evaluate video models' reasoning capabilities. Grounded in maze-solving tasks that inherently require spatial planning and multi-step reasoning, VR-Bench contains 7,920 procedurally generated videos across five maze types and diverse visual styles. Our empirical analysis demonstrates that SFT can efficiently elicit the reasoning ability of video model. Video models exhibit stronger spatial perception during reasoning, outperforming leading VLMs and generalizing well across diverse scenarios, tasks, and levels of complexity. We further discover a test-time scaling effect, where diverse sampling during inference improves reasoning reliability by 10--20%. These findings highlight the unique potential and scalability of reasoning via video for spatial reasoning tasks.

Raciocínio por Vídeo: A Primeira Avaliação das Capacidades de Raciocínio de Modelos de Vídeo através de Tarefas de Resolução de Labirintos

Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

Resumo

Support