LongLive-2.0: Eine NVFP4-Parallelinfrastruktur zur Generierung langer Videos

Zusammenfassung

Wir präsentieren LongLive-2.0, eine auf NVFP4 basierende parallele Infrastruktur, die den gesamten Trainings- und Inferenzworkflow der Generierung langer Videos abdeckt und Geschwindigkeits- sowie Speicherengpässe adressiert. Für das Training führen wir sequenzparalleles autoregressives (AR) Training ein, implementiert als Balanced SP, das eine effiziente Teacher-Forcing-Anordnung mit SP-Ausführung durch Paarung von sauberen Historien- und verrauschten Ziel-Zeitchunks auf jedem Rang kombiniert und so eine natürliche Teacher-Forcing-Maske mit SP-bewusster gechunkter VAE-Kodierung ermöglicht. In Kombination mit NVFP4-Präzision reduziert dies die GPU-Speicherkosten und beschleunigt die GEMM-Berechnung während des Trainings, deren Anteil mit wachsender Videolänge zunimmt. Darüber hinaus zeigen wir, dass eine hochwertige Infrastruktur und ein hochwertiger Datensatz einen bemerkenswert sauberen Trainingspipeline ermöglichen. Im Gegensatz zu bestehenden Methoden der Self-Forcing-Reihe, die auf ODE-Initialisierung und anschließendem Distribution-Matching-Distillation (DMD) beruhen, optimiert LongLive-2.0 ein Diffusionsmodell direkt zu einem langen, Multi-Shot-, interaktiven autoregressiven (AR) Diffusionsmodell. Es kann mit eigenständigen LoRA-Gewichten weiter in eine Echtzeitgenerierung (4 bis 2 Denoising-Schritte) überführt werden. Für die Inferenz auf Blackwell-GPUs ermöglichen wir W4A4-NVFP4-Inferenz, quantisieren den KV-Cache in NVFP4 zur Speichereinsparung und steigern den End-to-End-Durchsatz durch asynchrones Streaming der VAE-Dekodierung. Auf Nicht-Blackwell-GPU-Architekturen setzen wir SP-Inferenz ein, um die Geschwindigkeit auf Blackwell-GPUs zu erreichen, während der quantisierte KV-Cache die Inter-GPU-Kommunikation von SP reduzieren kann. Experimente zeigen eine Beschleunigung von bis zu 2,15x beim Training und 1,84x bei der Inferenz. LongLive-2.0-5B erreicht 45,7 FPS-Inferenz bei gleichzeitig starker Leistung in Benchmarks. Unseres Wissens ist LongLive-2.0 das erste NVFP4-Trainings- und Inferenzsystem für die Generierung langer Videos.

English

We present LongLive-2.0, an NVFP4-based parallel infrastructure throughout the full training and inference workflow of long video generation, addressing speed and memory bottlenecks. For training, we introduce sequence-parallel autoregressive (AR) training, instantiated as Balanced SP, which co-designs the efficient teacher-forcing layout with SP execution by pairing clean-history and noisy-target temporal chunks on each rank, enabling a natural teacher-forcing mask with SP-aware chunked VAE encoding. Combined with NVFP4 precision, it reduces GPU memory cost and accelerates GEMM computation during training, the proportion of which increases as video length grows. Moreover, we show that a high-quality infrastructure and dataset enable a remarkably clean training pipeline. Unlike existing Self-Forcing series methods that rely on ODE initialization and subsequent distribution matching distillation (DMD), LongLive-2.0 directly tunes a diffusion model into a long, multi-shot, interactive auto-regressive (AR) diffusion model. It can be further converted to real-time generation (4 to 2 denoising steps) with standalone LoRA weights. For inference on Blackwell GPUs, we enable W4A4 NVFP4 inference, quantize KV cache into NVFP4 for memory savings, and boost end-to-end throughput with asynchronous streaming VAE decoding. On non-Blackwell GPU architectures, we deploy SP inference to match the speed on Blackwell GPUs, while the quantized KV cache can lower inter-GPU communication of SP. Experiments show up to 2.15x speedup in training, and 1.84x in inference. LongLive-2.0-5B achieves 45.7 FPS inference while attaining strong performance on benchmarks. To our knowledge, LongLive-2.0 is the first NVFP4 training and inference system for long video generation.