LongLive-2.0 : Une infrastructure parallèle NVFP4 pour la génération de vidéos longues

Résumé

Nous présentons LongLive-2.0, une infrastructure parallèle basée sur NVFP4 pour l’ensemble du workflow d’entraînement et d’inférence de la génération de vidéos longues, permettant de résoudre les goulots d’étranglement liés à la vitesse et à la mémoire. Pour l’entraînement, nous introduisons l’entraînement autorégressif parallélisé en séquence (AR), instancié sous le nom de Balanced SP, qui conçoit conjointement une disposition efficace de *teacher-forcing* avec l’exécution SP en appariant des blocs temporels d’historique propre et de cible bruitée sur chaque rang, permettant ainsi un masque de *teacher-forcing* naturel avec un encodage VAE par blocs adapté à SP. Combinée à la précision NVFP4, cette approche réduit le coût mémoire GPU et accélère les calculs GEMM pendant l’entraînement, dont la proportion augmente avec la longueur de la vidéo. De plus, nous montrons qu’une infrastructure et un jeu de données de haute qualité permettent un pipeline d’entraînement remarquablement propre. Contrairement aux méthodes existantes de la série Self-Forcing, qui reposent sur une initialisation ODE et une distillation par appariement de distributions (DMD), LongLive-2.0 ajuste directement un modèle de diffusion en un modèle de diffusion autorégressif long, multi-plan et interactif. Il peut être converti ultérieurement en génération en temps réel (4 à 2 étapes de débruitage) avec des poids LoRA indépendants. Pour l’inférence sur GPU Blackwell, nous activons l’inférence NVFP4 en W4A4, quantifions le cache KV en NVFP4 pour économiser la mémoire, et augmentons le débit de bout en bout grâce à un décodage VAE en continu asynchrone. Sur les architectures GPU non Blackwell, nous déployons l’inférence SP pour égaler la vitesse des GPU Blackwell, tandis que le cache KV quantifié peut réduire la communication inter-GPU de SP. Les expériences montrent une accélération allant jusqu’à 2,15x en entraînement et 1,84x en inférence. LongLive-2.0-5B atteint 45,7 FPS en inférence tout en obtenant des performances solides sur les benchmarks. À notre connaissance, LongLive-2.0 est le premier système d’entraînement et d’inférence basé sur NVFP4 pour la génération de vidéos longues.

English

We present LongLive-2.0, an NVFP4-based parallel infrastructure throughout the full training and inference workflow of long video generation, addressing speed and memory bottlenecks. For training, we introduce sequence-parallel autoregressive (AR) training, instantiated as Balanced SP, which co-designs the efficient teacher-forcing layout with SP execution by pairing clean-history and noisy-target temporal chunks on each rank, enabling a natural teacher-forcing mask with SP-aware chunked VAE encoding. Combined with NVFP4 precision, it reduces GPU memory cost and accelerates GEMM computation during training, the proportion of which increases as video length grows. Moreover, we show that a high-quality infrastructure and dataset enable a remarkably clean training pipeline. Unlike existing Self-Forcing series methods that rely on ODE initialization and subsequent distribution matching distillation (DMD), LongLive-2.0 directly tunes a diffusion model into a long, multi-shot, interactive auto-regressive (AR) diffusion model. It can be further converted to real-time generation (4 to 2 denoising steps) with standalone LoRA weights. For inference on Blackwell GPUs, we enable W4A4 NVFP4 inference, quantize KV cache into NVFP4 for memory savings, and boost end-to-end throughput with asynchronous streaming VAE decoding. On non-Blackwell GPU architectures, we deploy SP inference to match the speed on Blackwell GPUs, while the quantized KV cache can lower inter-GPU communication of SP. Experiments show up to 2.15x speedup in training, and 1.84x in inference. LongLive-2.0-5B achieves 45.7 FPS inference while attaining strong performance on benchmarks. To our knowledge, LongLive-2.0 is the first NVFP4 training and inference system for long video generation.