Mezcla de Contextos para la Generación de Videos Largos
Mixture of Contexts for Long Video Generation
August 28, 2025
Autores: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
cs.AI
Resumen
La generación de videos largos es fundamentalmente un problema de memoria de contexto extenso: los modelos deben retener y recuperar eventos destacados a lo largo de un rango prolongado sin colapsar o desviarse. Sin embargo, escalar transformadores de difusión para generar videos de contexto largo está limitado fundamentalmente por el costo cuadrático de la autoatención, lo que hace que la memoria y el cálculo sean intratables y difíciles de optimizar para secuencias largas. Replanteamos la generación de videos de contexto largo como una tarea de recuperación de información interna y proponemos un módulo simple y aprendible de enrutamiento de atención dispersa, Mezcla de Contextos (MoC), como un motor eficaz de recuperación de memoria a largo plazo. En MoC, cada consulta selecciona dinámicamente algunos fragmentos informativos más anclajes obligatorios (subtítulos, ventanas locales) para atender, con un enrutamiento causal que evita cierres de bucle. A medida que escalamos los datos y gradualmente esparcimos el enrutamiento, el modelo asigna recursos computacionales a la historia destacada, preservando identidades, acciones y escenas durante minutos de contenido. La eficiencia surge como un subproducto de la recuperación (escalado casi lineal), lo que permite un entrenamiento y síntesis prácticos, y la emergencia de memoria y consistencia a escala de minutos.
English
Long video generation is fundamentally a long context memory problem: models
must retain and retrieve salient events across a long range without collapsing
or drifting. However, scaling diffusion transformers to generate long-context
videos is fundamentally limited by the quadratic cost of self-attention, which
makes memory and computation intractable and difficult to optimize for long
sequences. We recast long-context video generation as an internal information
retrieval task and propose a simple, learnable sparse attention routing module,
Mixture of Contexts (MoC), as an effective long-term memory retrieval engine.
In MoC, each query dynamically selects a few informative chunks plus mandatory
anchors (caption, local windows) to attend to, with causal routing that
prevents loop closures. As we scale the data and gradually sparsify the
routing, the model allocates compute to salient history, preserving identities,
actions, and scenes over minutes of content. Efficiency follows as a byproduct
of retrieval (near-linear scaling), which enables practical training and
synthesis, and the emergence of memory and consistency at the scale of minutes.