ChatPaper.aiChatPaper

Forzamiento de Contexto: Generación de Vídeo Autoregresiva Consistente con Contexto Largo

Context Forcing: Consistent Autoregressive Video Generation with Long Context

February 5, 2026
Autores: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
cs.AI

Resumen

Los enfoques recientes para la generación de vídeos largos en tiempo real suelen emplear estrategias de ajuste por flujo continuo, intentando entrenar un estudiante de contexto largo utilizando un profesor de contexto corto (sin memoria). En estos marcos, el estudiante realiza despliegues largos pero recibe supervisión de un profesor limitado a ventanas cortas de 5 segundos. Esta discrepancia estructural crea un desajuste crítico entre estudiante y profesor: la incapacidad del profesor para acceder al historial a largo plazo le impide guiar al estudiante en las dependencias temporales globales, limitando efectivamente la longitud de contexto del estudiante. Para resolver esto, proponemos Context Forcing, un marco novedoso que entrena un estudiante de contexto largo mediante un profesor de contexto largo. Al garantizar que el profesor conozca el historial completo de generación, eliminamos el desajuste en la supervisión, permitiendo el entrenamiento robusto de modelos capaces de mantener coherencia a largo plazo. Para hacer esto computacionalmente viable en duraciones extremas (por ejemplo, 2 minutos), introducimos un sistema de gestión de contexto que transforma el crecimiento lineal del contexto en una arquitectura de Memoria Lenta-Rápida, reduciendo significativamente la redundancia visual. Resultados exhaustivos demuestran que nuestro método permite longitudes de contexto efectivas superiores a 20 segundos (de 2 a 10 veces más largas que métodos de vanguardia como LongLive e Infinite-RoPE). Al aprovechar este contexto extendido, Context Forcing preserva una coherencia superior durante largas duraciones, superando a los métodos de referencia más avanzados en varias métricas de evaluación de vídeo largo.
English
Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.
PDF256February 7, 2026