ChatPaper.aiChatPaper

LongLive-2.0: Een NVFP4-parallelle infrastructuur voor lange videogeneratie

LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

May 18, 2026
Auteurs: Yukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han
cs.AI

Samenvatting

We presenteren LongLive-2.0, een op NVFP4 gebaseerde parallelle infrastructuur voor zowel de training als de inferentie van langdurige videogeneratie, die snelheids- en geheugenknelpunten aanpakt. Voor training introduceren we sequentie-parallelle autoregressieve (AR) training, geïmplementeerd als Balanced SP, die een efficiënte teacher-forcing-layout ontwerpt in samenhang met SP-uitvoering door schone-geschiedenis- en ruis-doel-temporele chunks op elke rank te combineren. Dit maakt een natuurlijk teacher-forcing-masker mogelijk met SP-bewuste chunked VAE-codering. In combinatie met NVFP4-precisie vermindert dit het GPU-geheugengebruik en versnelt het GEMM-berekeningen tijdens training, waarvan het aandeel toeneemt naarmate de videolengte groeit. Bovendien tonen we aan dat een hoogwaardige infrastructuur en dataset een opmerkelijk schoon trainingsproces mogelijk maken. In tegenstelling tot bestaande Self-Forcing-series die afhankelijk zijn van ODE-initialisatie en daaropvolgende distributie-matching-destillatie (DMD), stemt LongLive-2.0 een diffusiemodel direct af tot een lang, multi-shot, interactief autoregressief (AR) diffusiemodel. Het kan verder worden omgezet naar real-time generatie (4 tot 2 denoising-stappen) met standalone LoRA-gewichten. Voor inferentie op Blackwell GPU's schakelen we W4A4 NVFP4-inferentie in, kwantiseren we de KV-cache naar NVFP4 voor geheugenbesparing, en verhogen we de end-to-end doorvoer met asynchrone streaming VAE-decodering. Op niet-Blackwell GPU-architecturen implementeren we SP-inferentie om de snelheid van Blackwell GPU's te evenaren, terwijl de gekwantiseerde KV-cache de inter-GPU-communicatie van SP kan verminderen. Experimenten tonen tot 2,15x versnelling in training en 1,84x in inferentie. LongLive-2.0-5B behaalt 45,7 FPS inferentie met sterke prestaties op benchmarks. Naar ons weten is LongLive-2.0 het eerste NVFP4-trainings- en inferentiesysteem voor langdurige videogeneratie.
English
We present LongLive-2.0, an NVFP4-based parallel infrastructure throughout the full training and inference workflow of long video generation, addressing speed and memory bottlenecks. For training, we introduce sequence-parallel autoregressive (AR) training, instantiated as Balanced SP, which co-designs the efficient teacher-forcing layout with SP execution by pairing clean-history and noisy-target temporal chunks on each rank, enabling a natural teacher-forcing mask with SP-aware chunked VAE encoding. Combined with NVFP4 precision, it reduces GPU memory cost and accelerates GEMM computation during training, the proportion of which increases as video length grows. Moreover, we show that a high-quality infrastructure and dataset enable a remarkably clean training pipeline. Unlike existing Self-Forcing series methods that rely on ODE initialization and subsequent distribution matching distillation (DMD), LongLive-2.0 directly tunes a diffusion model into a long, multi-shot, interactive auto-regressive (AR) diffusion model. It can be further converted to real-time generation (4 to 2 denoising steps) with standalone LoRA weights. For inference on Blackwell GPUs, we enable W4A4 NVFP4 inference, quantize KV cache into NVFP4 for memory savings, and boost end-to-end throughput with asynchronous streaming VAE decoding. On non-Blackwell GPU architectures, we deploy SP inference to match the speed on Blackwell GPUs, while the quantized KV cache can lower inter-GPU communication of SP. Experiments show up to 2.15x speedup in training, and 1.84x in inference. LongLive-2.0-5B achieves 45.7 FPS inference while attaining strong performance on benchmarks. To our knowledge, LongLive-2.0 is the first NVFP4 training and inference system for long video generation.