Context Forcing: Geração de Vídeo Autoregressiva Consistente com Contexto Longo
Context Forcing: Consistent Autoregressive Video Generation with Long Context
February 5, 2026
Autores: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
cs.AI
Resumo
As abordagens recentes para geração de vídeos longos em tempo real geralmente empregam estratégias de ajuste por streaming, tentando treinar um estudante de contexto longo usando um professor de contexto curto (sem memória). Nessas estruturas, o estudante executa rollouts longos, mas recebe supervisão de um professor limitado a janelas curtas de 5 segundos. Essa discrepância estrutural cria um descompasso crítico entre estudante e professor: a incapacidade do professor de acessar o histórico de longo prazo impede que ele oriente o estudante sobre dependências temporais globais, limitando efetivamente o comprimento de contexto do estudante. Para resolver isso, propomos o Context Forcing, uma nova estrutura que treina um estudante de contexto longo por meio de um professor de contexto longo. Ao garantir que o professor tenha consciência do histórico completo de geração, eliminamos o descompasso de supervisão, permitindo o treinamento robusto de modelos capazes de consistência de longo prazo. Para tornar isso computacionalmente viável para durações extremas (por exemplo, 2 minutos), introduzimos um sistema de gerenciamento de contexto que transforma o contexto de crescimento linear em uma arquitetura de Memória Lenta-Rápida, reduzindo significativamente a redundância visual. Resultados extensivos demonstram que nosso método permite comprimentos de contexto efetivos superiores a 20 segundos – de 2 a 10 vezes maiores do que métodos state-of-the-art como LongLive e Infinite-RoPE. Ao aproveitar esse contexto estendido, o Context Forcing preserva uma consistência superior em longas durações, superando as linhas de base state-of-the-art em várias métricas de avaliação de vídeo longo.
English
Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.