LongLive-2.0: Параллельная инфраструктура NVFP4 для генерации длинных видео

Аннотация

Мы представляем LongLive-2.0, параллельную инфраструктуру на основе NVFP4, охватывающую полный цикл обучения и инференса генерации длинных видео и решающую проблемы скорости и памяти. Для обучения мы вводим последовательно-параллельное авторегрессионное (AR) обучение, реализованное как Balanced SP, которое совместно проектирует эффективное расположение teacher-forcing с выполнением SP путем объединения чистых исторических и зашумленных целевых временных фрагментов на каждом ранге, что позволяет создать естественную маску teacher-forcing с учетом SP при фрагментированном кодировании VAE. В сочетании с точностью NVFP4 это снижает затраты памяти GPU и ускоряет вычисления GEMM во время обучения, доля которых растет с увеличением длины видео. Более того, мы показываем, что высококачественная инфраструктура и набор данных позволяют создать исключительно чистый конвейер обучения. В отличие от существующих методов серии Self-Forcing, которые полагаются на инициализацию ODE и последующую дистилляцию согласования распределений (DMD), LongLive-2.0 напрямую настраивает диффузионную модель в длинную, многосегментную, интерактивную авторегрессионную (AR) диффузионную модель. Она может быть далее преобразована для генерации в реальном времени (от 4 до 2 шагов шумоподавления) с помощью отдельных весов LoRA. Для инференса на GPU Blackwell мы включаем инференс W4A4 NVFP4, квантизируем KV-кэш в NVFP4 для экономии памяти и повышаем сквозную пропускную способность с помощью асинхронного потокового декодирования VAE. На архитектурах GPU, отличных от Blackwell, мы развертываем инференс SP, чтобы соответствовать скорости на GPU Blackwell, при этом квантизированный KV-кэш может снизить меж-GPU взаимодействие SP. Эксперименты показывают ускорение до 2.15x в обучении и 1.84x в инференсе. LongLive-2.0-5B достигает 45.7 FPS в инференсе, показывая высокую производительность на бенчмарках. Насколько нам известно, LongLive-2.0 является первой системой обучения и инференса на NVFP4 для генерации длинных видео.

English

We present LongLive-2.0, an NVFP4-based parallel infrastructure throughout the full training and inference workflow of long video generation, addressing speed and memory bottlenecks. For training, we introduce sequence-parallel autoregressive (AR) training, instantiated as Balanced SP, which co-designs the efficient teacher-forcing layout with SP execution by pairing clean-history and noisy-target temporal chunks on each rank, enabling a natural teacher-forcing mask with SP-aware chunked VAE encoding. Combined with NVFP4 precision, it reduces GPU memory cost and accelerates GEMM computation during training, the proportion of which increases as video length grows. Moreover, we show that a high-quality infrastructure and dataset enable a remarkably clean training pipeline. Unlike existing Self-Forcing series methods that rely on ODE initialization and subsequent distribution matching distillation (DMD), LongLive-2.0 directly tunes a diffusion model into a long, multi-shot, interactive auto-regressive (AR) diffusion model. It can be further converted to real-time generation (4 to 2 denoising steps) with standalone LoRA weights. For inference on Blackwell GPUs, we enable W4A4 NVFP4 inference, quantize KV cache into NVFP4 for memory savings, and boost end-to-end throughput with asynchronous streaming VAE decoding. On non-Blackwell GPU architectures, we deploy SP inference to match the speed on Blackwell GPUs, while the quantized KV cache can lower inter-GPU communication of SP. Experiments show up to 2.15x speedup in training, and 1.84x in inference. LongLive-2.0-5B achieves 45.7 FPS inference while attaining strong performance on benchmarks. To our knowledge, LongLive-2.0 is the first NVFP4 training and inference system for long video generation.