동영상 추론의 이해
Demystifing Video Reasoning
March 17, 2026
저자: Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang
cs.AI
초록
최근 비디오 생성 분야의 발전에서 주목할 만한 현상이 관찰되었는데, 확산 기반 비디오 모델이 비단순적인 추론 능력을 보인다는 점입니다. 기존 연구는 이를 프레임 간 순차적으로 추론이 전개된다고 가정하는 프레임 체인(Chain-of-Frames, CoF) 메커니즘으로 설명해왔습니다. 본 연구에서는 이 가정에 의문을 제기하고 근본적으로 다른 메커니즘을 규명합니다. 우리는 비디오 모델의 추론이 실제로는 확산 노이즈 제거 단계를 따라 주로 발생함을 보여줍니다. 정성적 분석과 표적 탐색 실험을 통해, 모델이 초기 노이즈 제거 단계에서 여러 후보 해결책을 탐색하고 점진적으로 최종 답안으로 수렴하는 과정, 즉 '단계 체인(Chain-of-Steps, CoS)'이라고 명명한 현상을 발견했습니다. 이 핵심 메커니즘 외에도 모델 성능에 중요한 여러 자발적 추론 행동을 확인했습니다: (1) 지속적 참조를 가능하게 하는 작업 기억, (2) 잘못된 중간 해결책으로부터 회복을 허용하는 자기 수정 및 향상, (3) 초기 단계에서 의미론적 기반을 확립하고 후기 단계에서 구조화된 조작을 수행하는 '행동 전 인지'입니다. 또한 개별 확산 단계 내에서 Diffusion Transformer의 자기 진화적 기능 특화를 추가로 규명했는데, 초기 계층은 밀집된 지각 구조를 인코딩하고, 중간 계층은 추론을 실행하며, 후기 계층은 잠재 표현을 통합합니다. 이러한 통찰에 기반하여, 우리는 개념 증명으로 간단한 학습 불필요 전략을 제시합니다. 서로 다른 무작위 시드를 가진 동일 모델들의 잠재 궤적을 앙상블함으로써 추론 능력을 어떻게 향상시킬 수 있는지를 보여줍니다. 전반적으로, 본 연구는 비디오 생성 모델에서 추론이 어떻게 발현되는지에 대한 체계적인 이해를 제공하며, 비디오 모델의 내재적 추론 역학을 지능의 새로운 기반으로 더 잘 활용하는 미래 연구를 안내하는 토대를 마련합니다.
English
Recent advances in video generation have revealed an unexpected phenomenon: diffusion-based video models exhibit non-trivial reasoning capabilities. Prior work attributes this to a Chain-of-Frames (CoF) mechanism, where reasoning is assumed to unfold sequentially across video frames. In this work, we challenge this assumption and uncover a fundamentally different mechanism. We show that reasoning in video models instead primarily emerges along the diffusion denoising steps. Through qualitative analysis and targeted probing experiments, we find that models explore multiple candidate solutions in early denoising steps and progressively converge to a final answer, a process we term Chain-of-Steps (CoS). Beyond this core mechanism, we identify several emergent reasoning behaviors critical to model performance: (1) working memory, enabling persistent reference; (2) self-correction and enhancement, allowing recovery from incorrect intermediate solutions; and (3) perception before action, where early steps establish semantic grounding and later steps perform structured manipulation. During a diffusion step, we further uncover self-evolved functional specialization within Diffusion Transformers, where early layers encode dense perceptual structure, middle layers execute reasoning, and later layers consolidate latent representations. Motivated by these insights, we present a simple training-free strategy as a proof-of-concept, demonstrating how reasoning can be improved by ensembling latent trajectories from identical models with different random seeds. Overall, our work provides a systematic understanding of how reasoning emerges in video generation models, offering a foundation to guide future research in better exploiting the inherent reasoning dynamics of video models as a new substrate for intelligence.