文脈強制:長い文脈による一貫性のある自己回帰的ビデオ生成
Context Forcing: Consistent Autoregressive Video Generation with Long Context
February 5, 2026
著者: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
cs.AI
要旨
リアルタイム長尺動画生成の最近のアプローチでは、ストリーミングチューニング戦略を採用し、短いコンテキスト(メモリレス)の教師モデルを用いて長いコンテキストの生徒モデルを訓練することが一般的です。この枠組みでは、生徒モデルは長いロールアウトを実行しますが、5秒という短いウィンドウに制限された教師モデルからの監督しか受けられません。この構造的な不一致は、重大な生徒-教師ミスマッチを生み出します。教師モデルが長期的な履歴にアクセスできないため、生徒モデルに対して大域的な時間的依存関係を指導することができず、結果的に生徒モデルのコンテキスト長に上限を設けてしまうのです。
この問題を解決するため、我々は**Context Forcing**という新しいフレームワークを提案します。これは、長いコンテキストを持つ教師モデルを通じて、長いコンテキストの生徒モデルを訓練するものです。教師モデルが生成履歴全体を認識できるようにすることで、監督のミスマッチを解消し、長期的な一貫性を保つ能力を持つモデルを強固に訓練することを可能にします。
極端に長い持続時間(例:2分)に対してこれを計算量的に実現可能にするため、線形に増加するコンテキストを**Slow-Fastメモリ構造**に変換するコンテキスト管理システムを導入し、視覚的な冗長性を大幅に削減します。大規模な実験結果により、本手法が20秒を超える効果的なコンテキスト長を実現可能であることが示されました。これは、LongLiveやInfinite-RoPEなどの最新手法と比較して2倍から10倍長い値です。この拡張されたコンテキストを活用することで、Context Forcingは長時間にわたって優れた一貫性を維持し、様々な長尺動画評価指標において既存の最先端ベースライン手法を凌駕します。
English
Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.