ChatPaper.aiChatPaper

Mezcla de Contextos para la Generación de Videos Largos

Mixture of Contexts for Long Video Generation

August 28, 2025
Autores: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
cs.AI

Resumen

La generación de videos largos es fundamentalmente un problema de memoria de contexto extenso: los modelos deben retener y recuperar eventos destacados a lo largo de un rango prolongado sin colapsar o desviarse. Sin embargo, escalar transformadores de difusión para generar videos de contexto largo está limitado fundamentalmente por el costo cuadrático de la autoatención, lo que hace que la memoria y el cálculo sean intratables y difíciles de optimizar para secuencias largas. Replanteamos la generación de videos de contexto largo como una tarea de recuperación de información interna y proponemos un módulo simple y aprendible de enrutamiento de atención dispersa, Mezcla de Contextos (MoC), como un motor eficaz de recuperación de memoria a largo plazo. En MoC, cada consulta selecciona dinámicamente algunos fragmentos informativos más anclajes obligatorios (subtítulos, ventanas locales) para atender, con un enrutamiento causal que evita cierres de bucle. A medida que escalamos los datos y gradualmente esparcimos el enrutamiento, el modelo asigna recursos computacionales a la historia destacada, preservando identidades, acciones y escenas durante minutos de contenido. La eficiencia surge como un subproducto de la recuperación (escalado casi lineal), lo que permite un entrenamiento y síntesis prácticos, y la emergencia de memoria y consistencia a escala de minutos.
English
Long video generation is fundamentally a long context memory problem: models must retain and retrieve salient events across a long range without collapsing or drifting. However, scaling diffusion transformers to generate long-context videos is fundamentally limited by the quadratic cost of self-attention, which makes memory and computation intractable and difficult to optimize for long sequences. We recast long-context video generation as an internal information retrieval task and propose a simple, learnable sparse attention routing module, Mixture of Contexts (MoC), as an effective long-term memory retrieval engine. In MoC, each query dynamically selects a few informative chunks plus mandatory anchors (caption, local windows) to attend to, with causal routing that prevents loop closures. As we scale the data and gradually sparsify the routing, the model allocates compute to salient history, preserving identities, actions, and scenes over minutes of content. Efficiency follows as a byproduct of retrieval (near-linear scaling), which enables practical training and synthesis, and the emergence of memory and consistency at the scale of minutes.
PDF232August 29, 2025