LongLive-2.0: Una Infraestructura Paralela NVFP4 para la Generación de Videos Largos

Resumen

Presentamos LongLive-2.0, una infraestructura paralela basada en NVFP4 que abarca todo el flujo de trabajo de entrenamiento e inferencia para la generación de videos largos, abordando los cuellos de botella de velocidad y memoria. Para el entrenamiento, introducimos el entrenamiento autorregresivo (AR) con paralelismo de secuencia, implementado como Balanced SP, que co-diseña una disposición eficiente de teacher forcing con la ejecución de SP al emparejar fragmentos temporales de historial limpio y objetivo ruidoso en cada rango, lo que permite una máscara de teacher forcing natural con codificación VAE por fragmentos consciente de SP. Combinado con precisión NVFP4, reduce el costo de memoria de la GPU y acelera el cálculo GEMM durante el entrenamiento, cuya proporción aumenta a medida que crece la longitud del video. Además, mostramos que una infraestructura y un conjunto de datos de alta calidad permiten un pipeline de entrenamiento notablemente limpio. A diferencia de los métodos existentes de la serie Self-Forcing, que dependen de la inicialización ODE y la posterior destilación por emparejamiento de distribuciones (DMD), LongLive-2.0 ajusta directamente un modelo de difusión en un modelo de difusión autorregresivo (AR) largo, de múltiples tomas e interactivo. Este puede convertirse adicionalmente en generación en tiempo real (de 4 a 2 pasos de eliminación de ruido) con pesos LoRA independientes. Para la inferencia en GPUs Blackwell, habilitamos inferencia NVFP4 W4A4, cuantizamos la caché KV a NVFP4 para ahorrar memoria y aumentamos el rendimiento de extremo a extremo con decodificación VAE asíncrona en flujo continuo. En arquitecturas de GPU no Blackwell, implementamos inferencia con SP para igualar la velocidad en GPUs Blackwell, mientras que la caché KV cuantizada puede reducir la comunicación entre GPUs del SP. Los experimentos muestran una aceleración de hasta 2,15x en el entrenamiento y 1,84x en la inferencia. LongLive-2.0-5B logra una inferencia de 45,7 FPS con un rendimiento sólido en los puntos de referencia. Hasta donde sabemos, LongLive-2.0 es el primer sistema de entrenamiento e inferencia basado en NVFP4 para la generación de videos largos.

English

We present LongLive-2.0, an NVFP4-based parallel infrastructure throughout the full training and inference workflow of long video generation, addressing speed and memory bottlenecks. For training, we introduce sequence-parallel autoregressive (AR) training, instantiated as Balanced SP, which co-designs the efficient teacher-forcing layout with SP execution by pairing clean-history and noisy-target temporal chunks on each rank, enabling a natural teacher-forcing mask with SP-aware chunked VAE encoding. Combined with NVFP4 precision, it reduces GPU memory cost and accelerates GEMM computation during training, the proportion of which increases as video length grows. Moreover, we show that a high-quality infrastructure and dataset enable a remarkably clean training pipeline. Unlike existing Self-Forcing series methods that rely on ODE initialization and subsequent distribution matching distillation (DMD), LongLive-2.0 directly tunes a diffusion model into a long, multi-shot, interactive auto-regressive (AR) diffusion model. It can be further converted to real-time generation (4 to 2 denoising steps) with standalone LoRA weights. For inference on Blackwell GPUs, we enable W4A4 NVFP4 inference, quantize KV cache into NVFP4 for memory savings, and boost end-to-end throughput with asynchronous streaming VAE decoding. On non-Blackwell GPU architectures, we deploy SP inference to match the speed on Blackwell GPUs, while the quantized KV cache can lower inter-GPU communication of SP. Experiments show up to 2.15x speedup in training, and 1.84x in inference. LongLive-2.0-5B achieves 45.7 FPS inference while attaining strong performance on benchmarks. To our knowledge, LongLive-2.0 is the first NVFP4 training and inference system for long video generation.