LongLive: Generación Interactiva en Tiempo Real de Videos Largos
LongLive: Real-time Interactive Long Video Generation
September 26, 2025
Autores: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen
cs.AI
Resumen
Presentamos LongLive, un marco autoregresivo (AR) a nivel de fotogramas para la generación de videos largos en tiempo real e interactiva. La generación de videos largos presenta desafíos tanto en eficiencia como en calidad. Los modelos de Difusión y Difusión-Forzada pueden producir videos de alta calidad, pero sufren de baja eficiencia debido a la atención bidireccional. Los modelos AR con atención causal admiten el almacenamiento en caché de claves-valores (KV) para una inferencia más rápida, pero a menudo degradan la calidad en videos largos debido a los desafíos de memoria durante el entrenamiento de videos largos. Además, más allá de la generación estática basada en indicaciones, las capacidades interactivas, como las entradas de indicaciones en tiempo real, son cruciales para la creación de contenido dinámico, permitiendo a los usuarios guiar narrativas en tiempo real. Este requisito interactivo aumenta significativamente la complejidad, especialmente en garantizar la consistencia visual y la coherencia semántica durante las transiciones de indicaciones. Para abordar estos desafíos, LongLive adopta un diseño AR causal a nivel de fotogramas que integra un mecanismo de recaché KV que actualiza los estados en caché con nuevas indicaciones para cambios suaves y adherentes; un ajuste largo en tiempo real para permitir el entrenamiento de videos largos y alinear el entrenamiento y la inferencia (entrenar-largo-probar-largo); y una atención de ventana corta combinada con un sumidero de atención a nivel de fotogramas, abreviado como sumidero de fotogramas, preservando la consistencia a largo plazo mientras permite una generación más rápida. Con estos diseños clave, LongLive ajusta un modelo de clips cortos de 1.3 mil millones de parámetros para generar videos de minutos en solo 32 días de GPU. En la inferencia, LongLive mantiene 20.7 FPS en una sola NVIDIA H100, logrando un rendimiento sólido en VBench tanto en videos cortos como largos. LongLive admite videos de hasta 240 segundos en una sola GPU H100. Además, LongLive admite inferencia cuantificada en INT8 con solo una pérdida marginal de calidad.
English
We present LongLive, a frame-level autoregressive (AR) framework for
real-time and interactive long video generation. Long video generation presents
challenges in both efficiency and quality. Diffusion and Diffusion-Forcing
models can produce high-quality videos but suffer from low efficiency due to
bidirectional attention. Causal attention AR models support KV caching for
faster inference, but often degrade in quality on long videos due to memory
challenges during long-video training. In addition, beyond static prompt-based
generation, interactive capabilities, such as streaming prompt inputs, are
critical for dynamic content creation, enabling users to guide narratives in
real time. This interactive requirement significantly increases complexity,
especially in ensuring visual consistency and semantic coherence during prompt
transitions. To address these challenges, LongLive adopts a causal, frame-level
AR design that integrates a KV-recache mechanism that refreshes cached states
with new prompts for smooth, adherent switches; streaming long tuning to enable
long video training and to align training and inference (train-long-test-long);
and short window attention paired with a frame-level attention sink, shorten as
frame sink, preserving long-range consistency while enabling faster generation.
With these key designs, LongLive fine-tunes a 1.3B-parameter short-clip model
to minute-long generation in just 32 GPU-days. At inference, LongLive sustains
20.7 FPS on a single NVIDIA H100, achieves strong performance on VBench in both
short and long videos. LongLive supports up to 240-second videos on a single
H100 GPU. LongLive further supports INT8-quantized inference with only marginal
quality loss.