LongLive: Generazione Interattiva in Tempo Reale di Video Lunghi
LongLive: Real-time Interactive Long Video Generation
September 26, 2025
Autori: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen
cs.AI
Abstract
Presentiamo LongLive, un framework autoregressivo (AR) a livello di frame per la generazione di video lunghi in tempo reale e interattiva. La generazione di video lunghi presenta sfide sia in termini di efficienza che di qualità. I modelli di diffusione e Diffusion-Forcing possono produrre video di alta qualità, ma soffrono di bassa efficienza a causa dell'attenzione bidirezionale. I modelli AR con attenzione causale supportano la memorizzazione in cache KV per un'inferenza più veloce, ma spesso degradano in qualità sui video lunghi a causa delle sfide di memoria durante l'addestramento su video lunghi. Inoltre, oltre alla generazione basata su prompt statici, le capacità interattive, come l'inserimento di prompt in streaming, sono cruciali per la creazione di contenuti dinamici, consentendo agli utenti di guidare le narrazioni in tempo reale. Questo requisito interattivo aumenta significativamente la complessità, specialmente nel garantire coerenza visiva e semantica durante le transizioni dei prompt. Per affrontare queste sfide, LongLive adotta un design AR causale a livello di frame che integra un meccanismo di ricache KV che aggiorna gli stati memorizzati in cache con nuovi prompt per transizioni fluide e aderenti; un tuning lungo in streaming per abilitare l'addestramento su video lunghi e allineare addestramento e inferenza (train-long-test-long); e un'attenzione a finestra corta abbinata a un sink di attenzione a livello di frame, abbreviato come frame sink, preservando la coerenza a lungo raggio mentre abilita una generazione più veloce. Con questi design chiave, LongLive ottimizza un modello da 1,3 miliardi di parametri per clip brevi alla generazione di video di minuti in soli 32 giorni-GPU. All'inferenza, LongLive mantiene 20,7 FPS su una singola NVIDIA H100, raggiungendo prestazioni forti su VBench sia per video brevi che lunghi. LongLive supporta video fino a 240 secondi su una singola GPU H100. LongLive supporta inoltre l'inferenza quantizzata INT8 con solo una perdita marginale di qualità.
English
We present LongLive, a frame-level autoregressive (AR) framework for
real-time and interactive long video generation. Long video generation presents
challenges in both efficiency and quality. Diffusion and Diffusion-Forcing
models can produce high-quality videos but suffer from low efficiency due to
bidirectional attention. Causal attention AR models support KV caching for
faster inference, but often degrade in quality on long videos due to memory
challenges during long-video training. In addition, beyond static prompt-based
generation, interactive capabilities, such as streaming prompt inputs, are
critical for dynamic content creation, enabling users to guide narratives in
real time. This interactive requirement significantly increases complexity,
especially in ensuring visual consistency and semantic coherence during prompt
transitions. To address these challenges, LongLive adopts a causal, frame-level
AR design that integrates a KV-recache mechanism that refreshes cached states
with new prompts for smooth, adherent switches; streaming long tuning to enable
long video training and to align training and inference (train-long-test-long);
and short window attention paired with a frame-level attention sink, shorten as
frame sink, preserving long-range consistency while enabling faster generation.
With these key designs, LongLive fine-tunes a 1.3B-parameter short-clip model
to minute-long generation in just 32 GPU-days. At inference, LongLive sustains
20.7 FPS on a single NVIDIA H100, achieves strong performance on VBench in both
short and long videos. LongLive supports up to 240-second videos on a single
H100 GPU. LongLive further supports INT8-quantized inference with only marginal
quality loss.