Контекстное принуждение: согласованная авторегрессионная генерация видео с длинным контекстом
Context Forcing: Consistent Autoregressive Video Generation with Long Context
February 5, 2026
Авторы: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
cs.AI
Аннотация
Современные подходы к генерации длинных видео в реальном времени обычно используют стратегии потокового обучения, пытаясь обучить студент-модель с длинным контекстом с помощью учитель-модели с коротким контекстом (без памяти). В этих рамках студент выполняет длинные развертки, но получает контроль от учителя, ограниченного короткими 5-секундными окнами. Это структурное несоответствие создает критический разрыв между студентом и учителем: неспособность учителя получить доступ к долгосрочной истории мешает ему направлять студента в глобальных временных зависимостях, фактически ограничивая длину контекста студента. Для решения этой проблемы мы предлагаем Context Forcing — новую архитектуру, которая обучает студент-модель с длинным контекстом через учитель-модель с длинным контекстом. Обеспечивая осведомленность учителя о полной истории генерации, мы устраняем разрыв в контроле, позволяя надежно обучать модели, способные к долгосрочной согласованности. Чтобы сделать это вычислительно осуществимым для экстремальных длительностей (например, 2 минут), мы внедряем систему управления контекстом, которая преобразует линейно растущий контекст в архитектуру медленно-быстрой памяти, значительно сокращая визуальную избыточность. Обширные результаты демонстрируют, что наш метод обеспечивает эффективную длину контекста свыше 20 секунд — в 2–10 раз больше, чем передовые методы, такие как LongLive и Infinite-RoPE. Используя этот расширенный контекст, Context Forcing сохраняет превосходную согласованность в течение длительных периодов, превосходя современные базовые методы по различным метрикам оценки длинных видео.
English
Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.