LongLive: Echtzeit-Interaktive Erzeugung langer Videos
LongLive: Real-time Interactive Long Video Generation
September 26, 2025
papers.authors: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen
cs.AI
papers.abstract
Wir präsentieren LongLive, ein autoregressives (AR) Framework auf Frame-Ebene für die Echtzeit- und interaktive Generierung langer Videos. Die Generierung langer Videos stellt Herausforderungen in Bezug auf Effizienz und Qualität dar. Diffusions- und Diffusion-Forcing-Modelle können hochwertige Videos erzeugen, leiden jedoch unter geringer Effizienz aufgrund bidirektionaler Aufmerksamkeit. Kausale Aufmerksamkeits-AR-Modelle unterstützen KV-Caching für schnellere Inferenz, verlieren jedoch oft an Qualität bei langen Videos aufgrund von Speicherproblemen während des Trainings langer Videos. Darüber hinaus sind über die statische promptbasierte Generierung hinaus interaktive Fähigkeiten, wie Streaming-Prompt-Eingaben, entscheidend für die dynamische Inhaltserstellung, die es Benutzern ermöglicht, Erzählungen in Echtzeit zu steuern. Diese interaktive Anforderung erhöht die Komplexität erheblich, insbesondere bei der Sicherstellung visueller Konsistenz und semantischer Kohärenz während der Prompt-Übergänge. Um diese Herausforderungen zu bewältigen, setzt LongLive ein kausales, frame-level AR-Design ein, das einen KV-Recache-Mechanismus integriert, der zwischengespeicherte Zustände mit neuen Prompts aktualisiert, um nahtlose, anhaftende Wechsel zu ermöglichen; Streaming-Long-Tuning, um das Training langer Videos zu ermöglichen und Training und Inferenz abzustimmen (train-long-test-long); sowie kurze Fensteraufmerksamkeit gepaart mit einem Frame-Level-Attention-Sink, abgekürzt als Frame-Sink, der die langfristige Konsistenz bewahrt und gleichzeitig eine schnellere Generierung ermöglicht. Mit diesen Schlüsseldesigns feintunt LongLive ein 1,3-Milliarden-Parameter-Kurzclip-Modell in nur 32 GPU-Tagen auf die Generierung von Minuten-langen Videos. Bei der Inferenz hält LongLive 20,7 FPS auf einer einzelnen NVIDIA H100 aufrecht und erzielt starke Leistungen auf VBench sowohl bei kurzen als auch bei langen Videos. LongLive unterstützt Videos von bis zu 240 Sekunden auf einer einzelnen H100-GPU. LongLive unterstützt weiterhin INT8-quantisierte Inferenz mit nur marginalem Qualitätsverlust.
English
We present LongLive, a frame-level autoregressive (AR) framework for
real-time and interactive long video generation. Long video generation presents
challenges in both efficiency and quality. Diffusion and Diffusion-Forcing
models can produce high-quality videos but suffer from low efficiency due to
bidirectional attention. Causal attention AR models support KV caching for
faster inference, but often degrade in quality on long videos due to memory
challenges during long-video training. In addition, beyond static prompt-based
generation, interactive capabilities, such as streaming prompt inputs, are
critical for dynamic content creation, enabling users to guide narratives in
real time. This interactive requirement significantly increases complexity,
especially in ensuring visual consistency and semantic coherence during prompt
transitions. To address these challenges, LongLive adopts a causal, frame-level
AR design that integrates a KV-recache mechanism that refreshes cached states
with new prompts for smooth, adherent switches; streaming long tuning to enable
long video training and to align training and inference (train-long-test-long);
and short window attention paired with a frame-level attention sink, shorten as
frame sink, preserving long-range consistency while enabling faster generation.
With these key designs, LongLive fine-tunes a 1.3B-parameter short-clip model
to minute-long generation in just 32 GPU-days. At inference, LongLive sustains
20.7 FPS on a single NVIDIA H100, achieves strong performance on VBench in both
short and long videos. LongLive supports up to 240-second videos on a single
H100 GPU. LongLive further supports INT8-quantized inference with only marginal
quality loss.