ChatPaper.aiChatPaper

Forçage de Contexte : Génération Vidéo Auto-régressive Cohérente avec un Contexte Long

Context Forcing: Consistent Autoregressive Video Generation with Long Context

February 5, 2026
papers.authors: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
cs.AI

papers.abstract

Les approches récentes de génération de vidéos longues en temps réel emploient généralement des stratégies d'ajustement séquentiel, tentant d'entraîner un étudiant à long contexte à l'aide d'un enseignant à court contexte (sans mémoire). Dans ces cadres, l'étudiant effectue des déroulements longs mais reçoit une supervision d'un enseignant limité à de courtes fenêtres de 5 secondes. Cette divergence structurelle crée un décalage critique entre l'étudiant et l'enseignant : l'incapacité de l'enseignant à accéder à l'historique à long terme l'empêche de guider l'étudiant sur les dépendances temporelles globales, limitant effectivement la longueur de contexte de l'étudiant. Pour résoudre ce problème, nous proposons Context Forcing, un cadre novateur qui entraîne un étudiant à long contexte via un enseignant à long contexte. En veillant à ce que l'enseignant ait connaissance de l'historique complet de la génération, nous éliminons le décalage de supervision, permettant l'entraînement robuste de modèles capables d'une cohérence à long terme. Pour rendre cela réalisable sur le plan computationnel pour des durées extrêmes (par exemple, 2 minutes), nous introduisons un système de gestion de contexte qui transforme le contexte à croissance linéaire en une architecture de Mémoire Lente-Rapide, réduisant significativement la redondance visuelle. Des résultats approfondis démontrent que notre méthode permet des longueurs de contexte effectives dépassant 20 secondes – 2 à 10 fois plus longues que les méthodes de pointe comme LongLive et Infinite-RoPE. En tirant parti de ce contexte étendu, Context Forcing préserve une cohérence supérieure sur de longues durées, surpassant les bases de référence de l'état de l'art sur diverses métriques d'évaluation de vidéos longues.
English
Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.
PDF256February 7, 2026