ChatPaper.aiChatPaper

Context Forcing: Consistente Autoregressieve Videogeneratie met Lange Context

Context Forcing: Consistent Autoregressive Video Generation with Long Context

February 5, 2026
Auteurs: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
cs.AI

Samenvatting

Recente benaderingen voor real-time generatie van lange video's maken doorgaans gebruik van streaming-tuningstrategieën, waarbij geprobeerd wordt een studentmodel met lange context te trainen met behulp van een leraarmodel met korte context (geheugenloos). In deze frameworks voert het studentmodel lange rollouts uit, maar krijgt het supervisie van een leraarmodel dat beperkt is tot korte vensters van 5 seconden. Dit structurele verschil creëert een kritische mismatch tussen student en leraar: het onvermogen van de leraar om de langetermijngeschiedenis te raadplegen, verhindert dat deze de student kan begeleiden bij globale temporele afhankelijkheden, waardoor de contextlengte van de student in feite wordt begrensd. Om dit op te lossen, stellen wij Context Forcing voor, een nieuw framework dat een studentmodel met lange context traint via een leraarmodel met lange context. Door ervoor te zorgen dat de leraar de volledige generatiegeschiedenis kent, elimineren we de supervisiemismatch, wat een robuuste training mogelijk maakt van modellen die in staat zijn tot langetermijnconsistentie. Om dit computationeel haalbaar te maken voor extreme tijdsduren (bijv. 2 minuten), introduceren we een contextbeheersysteem dat de lineair groeiende context omzet in een Slow-Fast Memory-architectuur, waardoor visuele redundantie aanzienlijk wordt verminderd. Uitgebreide resultaten tonen aan dat onze methode effectieve contextlengtes mogelijk maakt van meer dan 20 seconden – 2 tot 10 keer langer dan state-of-the-art methoden zoals LongLive en Infinite-RoPE. Door gebruik te maken van deze uitgebreide context, behoudt Context Forcing superieure consistentie over lange tijdsduren en overtreft het state-of-the-art baseline-methoden op diverse evaluatiemetrics voor lange video's.
English
Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.
PDF277February 7, 2026