ChatPaper.aiChatPaper

Pensando em Molduras: Como o Contexto Visual e o Escalonamento em Tempo de Teste Potencializam o Raciocínio em Vídeo

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

January 28, 2026
Autores: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
cs.AI

Resumo

Os Modelos de Visão e Linguagem têm se destacado no raciocínio textual, mas frequentemente apresentam dificuldades na compreensão espacial refinada e no planejamento contínuo de ações, falhando em simular a dinâmica necessária para o raciocínio visual complexo. Neste trabalho, formulamos o raciocínio visual por meio de modelos de geração de vídeo, postulando que os quadros gerados podem atuar como etapas intermediárias de raciocínio entre estados iniciais e soluções. Avaliamos sua capacidade em dois regimes distintos: Navegação em Labirinto para planejamento sequencial discreto com baixa mudança visual e Quebra-Cabeça Tangram para manipulação contínua com alta mudança visual. Nossos experimentos revelam três insights críticos: (1) Generalização Robusta Zero-Shot: Em ambas as tarefas, o modelo demonstra forte desempenho em distribuições de dados não vistas sem ajuste fino específico. (2) Contexto Visual: O modelo utiliza efetivamente o contexto visual como controle explícito, como ícones de agente e formas de tangram, permitindo-lhe manter alta consistência visual e adaptar sua capacidade de planejamento de forma robusta a padrões não vistos. (3) Escalabilidade Visual em Tempo de Teste: Observamos uma lei de escalabilidade em tempo de teste no planejamento sequencial; aumentar a duração do vídeo gerado (orçamento de inferência visual) capacita uma melhor generalização zero-shot para caminhos espacial e temporalmente complexos. Essas descobertas sugerem que a geração de vídeo não é meramente uma ferramenta de mídia, mas um paradigma escalável e generalizável para o raciocínio visual.
English
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.
PDF134February 7, 2026