프레임으로 생각하기: 시각적 맥락과 테스트 시간 스케일링이 비디오 추론을 강화하는 방법
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
January 28, 2026
저자: Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
cs.AI
초록
비전-언어 모델은 텍스트 추론에서는 뛰어난 성능을 보이지만, 세밀한 공간 이해와 연속적인 행동 계획에는 어려움을 겪으며 복잡한 시각적 추론에 필요한 역학을 시뮬레이션하지 못하는 경우가 많습니다. 본 연구에서는 생성된 프레임이 초기 상태와 해결책 사이의 중간 추론 단계 역할을 할 수 있다는 가정 하에 비디오 생성 모델을 통한 시각적 추론 체계를 정립합니다. 우리는 두 가지 다른 영역에서 모델의 능력을 평가합니다: 시각적 변화가 적은 순차적 이산 계획을 위한 미로 탐색과 시각적 변화가 큰 연속 조작을 위한 탱그램 퍼즐입니다. 실험 결과 세 가지 중요한 통찰을 얻었습니다: (1) 강력한 제로샷 일반화: 두 과제 모두에서 모델은 특정 파인튜닝 없이도 보지 않은 데이터 분포에 대해 강력한 성능을 보였습니다. (2) 시각적 맥락: 모델은 에이전트 아이콘, 탱그램 형태 등 시각적 맥락을 명시적 제어 수단으로 효과적으로 활용하여 높은 시각적 일관성을 유지하고 보지 않은 패턴에 대해 강건하게 계획 능력을 적용할 수 있었습니다. (3) 시각적 테스트 타임 스케일링: 순차 계획에서 테스트 타임 스케일링 법칙을 관찰했습니다. 생성된 비디오 길이(시각적 추론 예산)를 증가시키면 공간적, 시간적으로 복잡한 경로에 대한 제로샷 일반화 능력이 향상됩니다. 이러한 발견들은 비디오 생성이 단순한 미디어 도구가 아닌, 확장 가능하고 일반화 가능한 시각적 추론 패러다임임을 시사합니다.
English
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.