Mistura de Contextos para Geração de Vídeos Longos
Mixture of Contexts for Long Video Generation
August 28, 2025
Autores: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
cs.AI
Resumo
A geração de vídeos longos é fundamentalmente um problema de memória de contexto longo: os modelos devem reter e recuperar eventos salientes ao longo de um intervalo extenso sem colapsar ou desviar. No entanto, escalar transformers de difusão para gerar vídeos de contexto longo é fundamentalmente limitado pelo custo quadrático da autoatenção, o que torna a memória e a computação intratáveis e difíceis de otimizar para sequências longas. Reinterpretamos a geração de vídeos de contexto longo como uma tarefa de recuperação de informação interna e propomos um módulo simples e aprendível de roteamento de atenção esparsa, Mixture of Contexts (MoC), como um mecanismo eficaz de recuperação de memória de longo prazo. No MoC, cada consulta seleciona dinamicamente alguns blocos informativos mais âncoras obrigatórias (legendas, janelas locais) para atender, com roteamento causal que evita fechamentos de loop. À medida que escalamos os dados e gradualmente esparsificamos o roteamento, o modelo aloca computação para o histórico saliente, preservando identidades, ações e cenas ao longo de minutos de conteúdo. A eficiência surge como um subproduto da recuperação (escalonamento quase linear), o que permite treinamento e síntese práticos, e o surgimento de memória e consistência na escala de minutos.
English
Long video generation is fundamentally a long context memory problem: models
must retain and retrieve salient events across a long range without collapsing
or drifting. However, scaling diffusion transformers to generate long-context
videos is fundamentally limited by the quadratic cost of self-attention, which
makes memory and computation intractable and difficult to optimize for long
sequences. We recast long-context video generation as an internal information
retrieval task and propose a simple, learnable sparse attention routing module,
Mixture of Contexts (MoC), as an effective long-term memory retrieval engine.
In MoC, each query dynamically selects a few informative chunks plus mandatory
anchors (caption, local windows) to attend to, with causal routing that
prevents loop closures. As we scale the data and gradually sparsify the
routing, the model allocates compute to salient history, preserving identities,
actions, and scenes over minutes of content. Efficiency follows as a byproduct
of retrieval (near-linear scaling), which enables practical training and
synthesis, and the emergence of memory and consistency at the scale of minutes.