Contesto Forzante: Generazione Video Autoregressiva Coerente con Contesto Esteso

Abstract

Gli approcci recenti per la generazione di video lunghi in tempo reale impiegano tipicamente strategie di tuning in streaming, tentando di addestrare uno studente a contesto lungo utilizzando un insegnante a contesto breve (privo di memoria). In questi framework, lo studente esegue generazioni lunghe ma riceve supervisione da un insegnante limitato a finestre brevi di 5 secondi. Questa discrepanza strutturale crea un disallineamento critico studente-insegnante: l'incapacità dell'insegnante di accedere alla cronologia a lungo termine gli impedisce di guidare lo studente sulle dipendenze temporali globali, limitando di fatto la lunghezza del contesto dello studente. Per risolvere questo problema, proponiamo Context Forcing, un framework innovativo che addestra uno studente a contesto lungo tramite un insegnante a contesto lungo. Garantendo che l'insegnante sia consapevole dell'intera cronologia di generazione, eliminiamo il disallineamento della supervisione, consentendo l'addestramento robusto di modelli capaci di coerenza a lungo termine. Per renderlo computazionalmente fattibile per durate estreme (ad esempio, 2 minuti), introduciamo un sistema di gestione del contesto che trasforma il contesto in crescita lineare in un'architettura di Memoria Lenta-Veloce, riducendo significativamente la ridondanza visiva. Risultati estensivi dimostrano che il nostro metodo consente lunghezze di contesto effettive superiori ai 20 secondi – da 2 a 10 volte più lunghe rispetto a metodi all'avanguardia come LongLive e Infinite-RoPE. Sfruttando questo contesto esteso, Context Forcing preserva una coerenza superiore per lunghe durate, superando i baseline all'avanguardia su varie metriche di valutazione per video lunghi.

English

Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical student-teacher mismatch: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose Context Forcing, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a Slow-Fast Memory architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.

Contesto Forzante: Generazione Video Autoregressiva Coerente con Contesto Esteso

Context Forcing: Consistent Autoregressive Video Generation with Long Context

Abstract

Support