LongLive: Real-time Interactieve Lange Videogeneratie
LongLive: Real-time Interactive Long Video Generation
September 26, 2025
Auteurs: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen
cs.AI
Samenvatting
We presenteren LongLive, een frame-level autoregressief (AR) raamwerk voor real-time en interactieve lange videogeneratie. Het genereren van lange video's brengt uitdagingen met zich mee op het gebied van zowel efficiëntie als kwaliteit. Diffusion- en Diffusion-Forcing-modellen kunnen hoogwaardige video's produceren, maar lijden onder lage efficiëntie vanwege bidirectionele aandacht. Causale aandacht AR-modellen ondersteunen KV-caching voor snellere inferentie, maar gaan vaak in kwaliteit achteruit bij lange video's vanwege geheugenuitdagingen tijdens lange-video training. Daarnaast zijn, naast statische prompt-gebaseerde generatie, interactieve mogelijkheden, zoals streaming prompt-inputs, cruciaal voor dynamische contentcreatie, waardoor gebruikers verhalen in real-time kunnen sturen. Deze interactieve vereiste verhoogt de complexiteit aanzienlijk, vooral bij het waarborgen van visuele consistentie en semantische samenhang tijdens promptovergangen. Om deze uitdagingen aan te pakken, neemt LongLive een causaal, frame-level AR-ontwerp aan dat een KV-recache-mechanisme integreert dat gecachte staten vernieuwt met nieuwe prompts voor soepele, aanhankelijke overgangen; streaming lange afstemming om lange video-training mogelijk te maken en training en inferentie op elkaar af te stemmen (train-long-test-long); en korte venster-aandacht gecombineerd met een frame-level aandachtssink, verkort als frame sink, die langeafstandsconsistentie behoudt terwijl snellere generatie mogelijk wordt gemaakt. Met deze sleutelontwerpen fine-tunt LongLive een 1.3B-parameter kort-clip model naar minutenlange generatie in slechts 32 GPU-dagen. Bij inferentie behoudt LongLive 20.7 FPS op een enkele NVIDIA H100, behaalt sterke prestaties op VBench in zowel korte als lange video's. LongLive ondersteunt video's tot 240 seconden op een enkele H100 GPU. LongLive ondersteunt verder INT8-gekwantiseerde inferentie met slechts marginaal kwaliteitsverlies.
English
We present LongLive, a frame-level autoregressive (AR) framework for
real-time and interactive long video generation. Long video generation presents
challenges in both efficiency and quality. Diffusion and Diffusion-Forcing
models can produce high-quality videos but suffer from low efficiency due to
bidirectional attention. Causal attention AR models support KV caching for
faster inference, but often degrade in quality on long videos due to memory
challenges during long-video training. In addition, beyond static prompt-based
generation, interactive capabilities, such as streaming prompt inputs, are
critical for dynamic content creation, enabling users to guide narratives in
real time. This interactive requirement significantly increases complexity,
especially in ensuring visual consistency and semantic coherence during prompt
transitions. To address these challenges, LongLive adopts a causal, frame-level
AR design that integrates a KV-recache mechanism that refreshes cached states
with new prompts for smooth, adherent switches; streaming long tuning to enable
long video training and to align training and inference (train-long-test-long);
and short window attention paired with a frame-level attention sink, shorten as
frame sink, preserving long-range consistency while enabling faster generation.
With these key designs, LongLive fine-tunes a 1.3B-parameter short-clip model
to minute-long generation in just 32 GPU-days. At inference, LongLive sustains
20.7 FPS on a single NVIDIA H100, achieves strong performance on VBench in both
short and long videos. LongLive supports up to 240-second videos on a single
H100 GPU. LongLive further supports INT8-quantized inference with only marginal
quality loss.