LongLive: Генерация длинных видео в реальном времени с интерактивными возможностями
LongLive: Real-time Interactive Long Video Generation
September 26, 2025
Авторы: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen
cs.AI
Аннотация
Мы представляем LongLive, авторегрессионную (AR) структуру на уровне кадров для генерации длинных видео в реальном времени с интерактивными возможностями. Генерация длинных видео сталкивается с проблемами как в эффективности, так и в качестве. Модели на основе диффузии и Diffusion-Forcing способны создавать высококачественные видео, но страдают от низкой эффективности из-за двунаправленного внимания. Авторегрессионные модели с причинным вниманием поддерживают кэширование ключей и значений (KV) для ускоренного вывода, однако часто теряют качество на длинных видео из-за проблем с памятью во время обучения на длинных последовательностях. Кроме того, помимо статической генерации на основе промптов, интерактивные возможности, такие как потоковый ввод промптов, критически важны для динамического создания контента, позволяя пользователям направлять повествование в реальном времени. Это требование значительно увеличивает сложность, особенно в обеспечении визуальной согласованности и семантической связности при смене промптов. Для решения этих задач LongLive использует причинную AR-структуру на уровне кадров, которая включает механизм KV-перекэширования, обновляющий кэшированные состояния новыми промптами для плавных переходов; потоковую настройку для длинных видео, позволяющую обучать модели на длинных последовательностях и согласовывать обучение и вывод (train-long-test-long); а также внимание с коротким окном в сочетании с "поглотителем внимания" на уровне кадров (frame sink), что сохраняет долгосрочную согласованность при ускоренной генерации. Благодаря этим ключевым решениям LongFine настраивает модель с 1,3 миллиардами параметров для генерации минутных видео всего за 32 GPU-дня. При выводе LongLive поддерживает 20,7 кадров в секунду на одном GPU NVIDIA H100, демонстрируя высокую производительность на VBench как для коротких, так и для длинных видео. LongLive поддерживает генерацию видео длительностью до 240 секунд на одном GPU H100. Кроме того, LongLive поддерживает вывод с INT8-квантованием с минимальной потерей качества.
English
We present LongLive, a frame-level autoregressive (AR) framework for
real-time and interactive long video generation. Long video generation presents
challenges in both efficiency and quality. Diffusion and Diffusion-Forcing
models can produce high-quality videos but suffer from low efficiency due to
bidirectional attention. Causal attention AR models support KV caching for
faster inference, but often degrade in quality on long videos due to memory
challenges during long-video training. In addition, beyond static prompt-based
generation, interactive capabilities, such as streaming prompt inputs, are
critical for dynamic content creation, enabling users to guide narratives in
real time. This interactive requirement significantly increases complexity,
especially in ensuring visual consistency and semantic coherence during prompt
transitions. To address these challenges, LongLive adopts a causal, frame-level
AR design that integrates a KV-recache mechanism that refreshes cached states
with new prompts for smooth, adherent switches; streaming long tuning to enable
long video training and to align training and inference (train-long-test-long);
and short window attention paired with a frame-level attention sink, shorten as
frame sink, preserving long-range consistency while enabling faster generation.
With these key designs, LongLive fine-tunes a 1.3B-parameter short-clip model
to minute-long generation in just 32 GPU-days. At inference, LongLive sustains
20.7 FPS on a single NVIDIA H100, achieves strong performance on VBench in both
short and long videos. LongLive supports up to 240-second videos on a single
H100 GPU. LongLive further supports INT8-quantized inference with only marginal
quality loss.