LongLive : Génération interactive en temps réel de vidéos longues
LongLive: Real-time Interactive Long Video Generation
September 26, 2025
papers.authors: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen
cs.AI
papers.abstract
Nous présentons LongLive, un cadre autoregressif (AR) au niveau des trames pour la génération de vidéos longues en temps réel et interactive. La génération de vidéos longues pose des défis tant en termes d'efficacité que de qualité. Les modèles de diffusion et de Diffusion-Forcing peuvent produire des vidéos de haute qualité, mais souffrent d'une faible efficacité en raison de l'attention bidirectionnelle. Les modèles AR à attention causale prennent en charge la mise en cache KV pour une inférence plus rapide, mais voient souvent leur qualité se dégrader sur les vidéos longues en raison des défis de mémoire lors de l'entraînement sur de longues vidéos. De plus, au-delà de la génération basée sur des invites statiques, les capacités interactives, telles que les entrées d'invites en flux continu, sont essentielles pour la création de contenu dynamique, permettant aux utilisateurs de guider les récits en temps réel. Cette exigence interactive augmente considérablement la complexité, en particulier pour assurer la cohérence visuelle et sémantique lors des transitions d'invites. Pour relever ces défis, LongLive adopte une conception AR causale au niveau des trames qui intègre un mécanisme de remise à jour KV qui actualise les états mis en cache avec de nouvelles invites pour des transitions fluides et adhérentes ; un réglage long en flux continu pour permettre l'entraînement sur de longues vidéos et aligner l'entraînement et l'inférence (entraînement long-test long) ; et une attention à fenêtre courte couplée à un point d'attention au niveau des trames, raccourci en tant que point de trame, préservant la cohérence à long tout en permettant une génération plus rapide. Avec ces conceptions clés, LongLive affine un modèle de courtes séquences de 1,3 milliard de paramètres pour une génération de plusieurs minutes en seulement 32 jours GPU. À l'inférence, LongLive maintient 20,7 FPS sur un seul NVIDIA H100, atteint des performances solides sur VBench pour les vidéos courtes et longues. LongLive prend en charge des vidéos allant jusqu'à 240 secondes sur un seul GPU H100. LongLive prend également en charge l'inférence quantifiée en INT8 avec seulement une perte de qualité marginale.
English
We present LongLive, a frame-level autoregressive (AR) framework for
real-time and interactive long video generation. Long video generation presents
challenges in both efficiency and quality. Diffusion and Diffusion-Forcing
models can produce high-quality videos but suffer from low efficiency due to
bidirectional attention. Causal attention AR models support KV caching for
faster inference, but often degrade in quality on long videos due to memory
challenges during long-video training. In addition, beyond static prompt-based
generation, interactive capabilities, such as streaming prompt inputs, are
critical for dynamic content creation, enabling users to guide narratives in
real time. This interactive requirement significantly increases complexity,
especially in ensuring visual consistency and semantic coherence during prompt
transitions. To address these challenges, LongLive adopts a causal, frame-level
AR design that integrates a KV-recache mechanism that refreshes cached states
with new prompts for smooth, adherent switches; streaming long tuning to enable
long video training and to align training and inference (train-long-test-long);
and short window attention paired with a frame-level attention sink, shorten as
frame sink, preserving long-range consistency while enabling faster generation.
With these key designs, LongLive fine-tunes a 1.3B-parameter short-clip model
to minute-long generation in just 32 GPU-days. At inference, LongLive sustains
20.7 FPS on a single NVIDIA H100, achieves strong performance on VBench in both
short and long videos. LongLive supports up to 240-second videos on a single
H100 GPU. LongLive further supports INT8-quantized inference with only marginal
quality loss.