Kontextzwingung: Konsistente autoregressive Videogenerierung mit langem Kontext
Context Forcing: Consistent Autoregressive Video Generation with Long Context
February 5, 2026
papers.authors: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
cs.AI
papers.abstract
Aktuelle Ansätze zur Echtzeitgenerierung langer Videos setzen typischerweise auf Streaming-Tuning-Strategien, bei denen versucht wird, einen Studenten mit langem Kontext mithilfe eines lehrergeführten Kurzkontext-Modells (ohne Gedächtnis) zu trainieren. In diesen Frameworks führt der Student lange Rollouts durch, erhält jedoch Supervision von einem Lehrer, der auf kurze 5-Sekunden-Fenster beschränkt ist. Diese strukturelle Diskrepanz erzeugt eine kritische Student-Lehrer-Fehlanpassung: Die Unfähigkeit des Lehrers, auf langfristige Historie zuzugreifen, verhindert eine Anleitung des Studenten zu globalen temporalen Abhängigkeiten, was die Kontextlänge des Studenten effektiv begrenzt. Um dies zu lösen, schlagen wir Context Forcing vor, ein neuartiges Framework, das einen Langkontext-Studenten über einen Langkontext-Lehrer trainiert. Indem wir sicherstellen, dass der Lehrer den vollständigen Generierungsverlauf kennt, beseitigen wir die Supervisions-Fehlanpassung und ermöglichen ein robustes Training von Modellen mit langfristiger Konsistenz. Um dies für extreme Zeiträume (z.B. 2 Minuten) rechenpraktisch umsetzbar zu machen, führen wir ein Kontextmanagementsystem ein, das den linear wachsenden Kontext in eine Slow-Fast-Memory-Architektur transformiert und visuelle Redundanz signifikant reduziert. Umfangreiche Ergebnisse zeigen, dass unsere Methode effektive Kontextlängen von über 20 Sekunden ermöglicht – 2- bis 10-mal länger als State-of-the-Art-Methoden wie LongLive und Infinite-RoPE. Durch die Nutzung dieses erweiterten Kontexts bewahrt Context Forcing eine überlegene Konsistenz über lange Zeiträume und übertrifft State-of-the-Art-Baselines in verschiedenen Langvideo-Bewertungsmetriken.
English
Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.