Miscela di Contesti per la Generazione di Video Lunghi
Mixture of Contexts for Long Video Generation
August 28, 2025
Autori: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
cs.AI
Abstract
La generazione di video lunghi è fondamentalmente un problema di memoria a lungo contesto: i modelli devono conservare e recuperare eventi salienti su un ampio intervallo senza collassare o deviare. Tuttavia, il ridimensionamento dei trasformatori di diffusione per generare video a lungo contesto è limitato dal costo quadratico dell'auto-attenzione, che rende la memoria e il calcolo intrattabili e difficili da ottimizzare per sequenze lunghe. Riformuliamo la generazione di video a lungo contesto come un compito di recupero interno delle informazioni e proponiamo un semplice modulo di routing dell'attenzione sparsa e apprendibile, Mixture of Contexts (MoC), come un efficace motore di recupero della memoria a lungo termine. In MoC, ogni query seleziona dinamicamente alcuni chunk informativi più ancore obbligatorie (didascalia, finestre locali) a cui prestare attenzione, con un routing causale che previene la chiusura di loop. Man mano che scaliamo i dati e sparsifichiamo gradualmente il routing, il modello assegna il calcolo alla storia saliente, preservando identità, azioni e scene per minuti di contenuto. L'efficienza segue come sottoprodotto del recupero (scalabilità quasi lineare), che consente un addestramento e una sintesi pratici, e l'emergere di memoria e coerenza su una scala di minuti.
English
Long video generation is fundamentally a long context memory problem: models
must retain and retrieve salient events across a long range without collapsing
or drifting. However, scaling diffusion transformers to generate long-context
videos is fundamentally limited by the quadratic cost of self-attention, which
makes memory and computation intractable and difficult to optimize for long
sequences. We recast long-context video generation as an internal information
retrieval task and propose a simple, learnable sparse attention routing module,
Mixture of Contexts (MoC), as an effective long-term memory retrieval engine.
In MoC, each query dynamically selects a few informative chunks plus mandatory
anchors (caption, local windows) to attend to, with causal routing that
prevents loop closures. As we scale the data and gradually sparsify the
routing, the model allocates compute to salient history, preserving identities,
actions, and scenes over minutes of content. Efficiency follows as a byproduct
of retrieval (near-linear scaling), which enables practical training and
synthesis, and the emergence of memory and consistency at the scale of minutes.