LongLive: Geração de Vídeos Longos em Tempo Real com Interatividade
LongLive: Real-time Interactive Long Video Generation
September 26, 2025
Autores: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen
cs.AI
Resumo
Apresentamos o LongLive, uma estrutura autoregressiva (AR) em nível de quadro para geração de vídeos longos em tempo real e interativa. A geração de vídeos longos apresenta desafios tanto em eficiência quanto em qualidade. Modelos de Difusão e Difusão-Forçada podem produzir vídeos de alta qualidade, mas sofrem com baixa eficiência devido à atenção bidirecional. Modelos AR com atenção causal suportam cache de KV para inferência mais rápida, mas frequentemente degradam em qualidade em vídeos longos devido a desafios de memória durante o treinamento de vídeos longos. Além disso, além da geração baseada em prompts estáticos, capacidades interativas, como entradas de prompts em fluxo contínuo, são críticas para a criação de conteúdo dinâmico, permitindo que os usuários guiem narrativas em tempo real. Esse requisito interativo aumenta significativamente a complexidade, especialmente na garantia de consistência visual e coerência semântica durante as transições de prompts. Para enfrentar esses desafios, o LongLive adota um design AR causal em nível de quadro que integra um mecanismo de recache de KV que atualiza estados em cache com novos prompts para transições suaves e aderentes; ajuste longo em fluxo contínuo para permitir o treinamento de vídeos longos e alinhar treinamento e inferência (treinar-longo-testar-longo); e atenção de janela curta combinada com um sumidouro de atenção em nível de quadro, abreviado como sumidouro de quadro, preservando a consistência de longo alcance enquanto permite geração mais rápida. Com esses principais designs, o LongLive ajusta finamente um modelo de clipe curto de 1,3 bilhão de parâmetros para geração de minutos em apenas 32 dias de GPU. Na inferência, o LongLive mantém 20,7 FPS em um único NVIDIA H100, alcançando forte desempenho no VBench tanto em vídeos curtos quanto longos. O LongLive suporta vídeos de até 240 segundos em uma única GPU H100. O LongLive ainda suporta inferência quantizada em INT8 com apenas perda marginal de qualidade.
English
We present LongLive, a frame-level autoregressive (AR) framework for
real-time and interactive long video generation. Long video generation presents
challenges in both efficiency and quality. Diffusion and Diffusion-Forcing
models can produce high-quality videos but suffer from low efficiency due to
bidirectional attention. Causal attention AR models support KV caching for
faster inference, but often degrade in quality on long videos due to memory
challenges during long-video training. In addition, beyond static prompt-based
generation, interactive capabilities, such as streaming prompt inputs, are
critical for dynamic content creation, enabling users to guide narratives in
real time. This interactive requirement significantly increases complexity,
especially in ensuring visual consistency and semantic coherence during prompt
transitions. To address these challenges, LongLive adopts a causal, frame-level
AR design that integrates a KV-recache mechanism that refreshes cached states
with new prompts for smooth, adherent switches; streaming long tuning to enable
long video training and to align training and inference (train-long-test-long);
and short window attention paired with a frame-level attention sink, shorten as
frame sink, preserving long-range consistency while enabling faster generation.
With these key designs, LongLive fine-tunes a 1.3B-parameter short-clip model
to minute-long generation in just 32 GPU-days. At inference, LongLive sustains
20.7 FPS on a single NVIDIA H100, achieves strong performance on VBench in both
short and long videos. LongLive supports up to 240-second videos on a single
H100 GPU. LongLive further supports INT8-quantized inference with only marginal
quality loss.