ChatPaper.aiChatPaper

맥락 강제화: 긴 맥락을 활용한 일관된 자기회귀 비디오 생성

Context Forcing: Consistent Autoregressive Video Generation with Long Context

February 5, 2026
저자: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
cs.AI

초록

최근 실시간 장영상 생성 접근법들은 일반적으로 스트리밍 튜닝 전략을 채택하여, 단기 컨텍스트(메모리 없는) 교사 모델을 이용해 장기 컨텍스트 학생 모델을 학습시키려 시도합니다. 이러한 프레임워크에서 학생 모델은 장기 롤아웃을 수행하지만, 5초 길이의 단기 창에 제한된 교사 모델로부터 지도를 받습니다. 이러한 구조적 차이는 중요한 학생-교사 불일치를 야기합니다. 교사 모델이 장기 역사에 접근할 수 없기 때문에 학생 모델에게 전역 시간적 의존성을 지도할 수 없어, 결과적으로 학생 모델의 컨텍스트 길이에 한계를 초래합니다. 이를 해결하기 위해 우리는 장기 컨텍스트 교사 모델을 통해 장기 컨텍스트 학생 모델을 학습하는 새로운 프레임워크인 Context Forcing을 제안합니다. 교사 모델이 전체 생성 역사를 인식하도록 보장함으로써 지도 불일치를 제거하고, 장기적 일관성을 유지할 수 있는 모델의 강건한 학습을 가능하게 합니다. 극단적으로 긴 지속 시간(예: 2분)에 대해 이를 계산적으로 실현 가능하게 하기 위해, 선형 증가하는 컨텍스트를 Slow-Fast Memory 구조로 변환하여 시각적 중복성을 크게 줄이는 컨텍스트 관리 시스템을 도입합니다. 폭넓은 실험 결과는 우리 방법이 20초를 초과하는 효과적인 컨텍스트 길이를 가능하게 하며, 이는 LongLive 및 Infinite-RoPE와 같은 최신 방법보다 2배에서 10배 더 깁니다. 이러한 확장된 컨텍스트를 활용함으로써 Context Forcing은 장기간에 걸쳐 우수한 일관성을 유지하며, 다양한 장영상 평가 메트릭에서 최신 기준선들을 능가합니다.
English
Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.
PDF256February 7, 2026