Mélange de Contextes pour la Génération de Vidéos Longues
Mixture of Contexts for Long Video Generation
August 28, 2025
papers.authors: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
cs.AI
papers.abstract
La génération de vidéos longues est fondamentalement un problème de mémoire à contexte étendu : les modèles doivent retenir et récupérer des événements saillants sur une longue durée sans s'effondrer ou dériver. Cependant, l'extension des transformeurs à diffusion pour générer des vidéos à contexte long est intrinsèquement limitée par le coût quadratique de l'auto-attention, ce qui rend la mémoire et le calcul inabordables et difficiles à optimiser pour les longues séquences. Nous reformulons la génération de vidéos à contexte long comme une tâche de récupération d'information interne et proposons un module simple et apprenable de routage d'attention parcimonieuse, Mixture of Contexts (MoC), comme moteur efficace de récupération de mémoire à long terme. Dans MoC, chaque requête sélectionne dynamiquement quelques segments informatifs ainsi que des ancres obligatoires (légende, fenêtres locales) à traiter, avec un routage causal qui empêche les boucles de fermeture. À mesure que nous augmentons les données et parcimonisons progressivement le routage, le modèle alloue les ressources de calcul à l'historique saillant, préservant les identités, les actions et les scènes sur plusieurs minutes de contenu. L'efficacité découle comme un sous-produit de la récupération (mise à l'échelle quasi-linéaire), ce qui permet un entraînement et une synthèse pratiques, ainsi que l'émergence de la mémoire et de la cohérence à l'échelle de plusieurs minutes.
English
Long video generation is fundamentally a long context memory problem: models
must retain and retrieve salient events across a long range without collapsing
or drifting. However, scaling diffusion transformers to generate long-context
videos is fundamentally limited by the quadratic cost of self-attention, which
makes memory and computation intractable and difficult to optimize for long
sequences. We recast long-context video generation as an internal information
retrieval task and propose a simple, learnable sparse attention routing module,
Mixture of Contexts (MoC), as an effective long-term memory retrieval engine.
In MoC, each query dynamically selects a few informative chunks plus mandatory
anchors (caption, local windows) to attend to, with causal routing that
prevents loop closures. As we scale the data and gradually sparsify the
routing, the model allocates compute to salient history, preserving identities,
actions, and scenes over minutes of content. Efficiency follows as a byproduct
of retrieval (near-linear scaling), which enables practical training and
synthesis, and the emergence of memory and consistency at the scale of minutes.