LongLive-2.0: Uma Infraestrutura Paralela NVFP4 para Geração de Vídeos Longos

Resumo

Apresentamos o LongLive-2.0, uma infraestrutura paralela baseada em NVFP4 para todo o fluxo de treinamento e inferência de geração de vídeos longos, abordando gargalos de velocidade e memória. Para o treinamento, introduzimos o treinamento autorregressivo (AR) paralelo por sequência, instanciado como Balanced SP, que co-projeta o layout eficiente de teacher-forcing com a execução SP, emparelhando fatias temporais de histórico limpo e alvo ruidoso em cada rank, viabilizando uma máscara de teacher-forcing natural com codificação VAE em fatias ciente de SP. Combinado com a precisão NVFP4, reduz o custo de memória da GPU e acelera o cálculo GEMM durante o treinamento, cuja proporção aumenta conforme o comprimento do vídeo cresce. Além disso, mostramos que uma infraestrutura e um conjunto de dados de alta qualidade permitem um pipeline de treinamento notavelmente limpo. Diferentemente dos métodos existentes da série Self-Forcing, que dependem de inicialização ODE e posterior destilação por correspondência de distribuição (DMD), o LongLive-2.0 ajusta diretamente um modelo de difusão em um modelo de difusão autorregressivo (AR) longo, de múltiplas tomadas e interativo. Ele pode ainda ser convertido para geração em tempo real (4 para 2 etapas de remoção de ruído) com pesos LoRA independentes. Para inferência em GPUs Blackwell, habilitamos a inferência NVFP4 W4A4, quantizamos o cache KV em NVFP4 para economia de memória e impulsionamos a vazão ponta a ponta com decodificação assíncrona em fluxo do VAE. Em arquiteturas de GPU não-Blackwell, implantamos a inferência SP para igualar a velocidade das GPUs Blackwell, enquanto o cache KV quantizado pode reduzir a comunicação entre GPUs do SP. Experimentos mostram aceleração de até 2,15x no treinamento e 1,84x na inferência. O LongLive-2.0-5B alcança 45,7 FPS em inferência, mantendo desempenho robusto em benchmarks. Até onde sabemos, o LongLive-2.0 é o primeiro sistema de treinamento e inferência NVFP4 para geração de vídeos longos.

English

We present LongLive-2.0, an NVFP4-based parallel infrastructure throughout the full training and inference workflow of long video generation, addressing speed and memory bottlenecks. For training, we introduce sequence-parallel autoregressive (AR) training, instantiated as Balanced SP, which co-designs the efficient teacher-forcing layout with SP execution by pairing clean-history and noisy-target temporal chunks on each rank, enabling a natural teacher-forcing mask with SP-aware chunked VAE encoding. Combined with NVFP4 precision, it reduces GPU memory cost and accelerates GEMM computation during training, the proportion of which increases as video length grows. Moreover, we show that a high-quality infrastructure and dataset enable a remarkably clean training pipeline. Unlike existing Self-Forcing series methods that rely on ODE initialization and subsequent distribution matching distillation (DMD), LongLive-2.0 directly tunes a diffusion model into a long, multi-shot, interactive auto-regressive (AR) diffusion model. It can be further converted to real-time generation (4 to 2 denoising steps) with standalone LoRA weights. For inference on Blackwell GPUs, we enable W4A4 NVFP4 inference, quantize KV cache into NVFP4 for memory savings, and boost end-to-end throughput with asynchronous streaming VAE decoding. On non-Blackwell GPU architectures, we deploy SP inference to match the speed on Blackwell GPUs, while the quantized KV cache can lower inter-GPU communication of SP. Experiments show up to 2.15x speedup in training, and 1.84x in inference. LongLive-2.0-5B achieves 45.7 FPS inference while attaining strong performance on benchmarks. To our knowledge, LongLive-2.0 is the first NVFP4 training and inference system for long video generation.