LongVie: Управляемая генерация сверхдлинных видео с использованием мультимодальных данных
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
August 5, 2025
Авторы: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI
Аннотация
Генерация управляемых сверхдлинных видео является фундаментальной, но сложной задачей. Хотя существующие методы эффективны для коротких роликов, они сталкиваются с проблемами при масштабировании, такими как временная несогласованность и ухудшение визуального качества. В данной работе мы сначала исследуем и выделяем три ключевых фактора: раздельную инициализацию шума, независимую нормализацию управляющих сигналов и ограничения однородного руководства. Для решения этих проблем мы предлагаем LongVie — сквозную авторегрессионную структуру для генерации управляемых длинных видео. LongVie вводит два основных подхода для обеспечения временной согласованности: 1) унифицированную стратегию инициализации шума, которая поддерживает согласованность генерации между клипами, и 2) глобальную нормализацию управляющих сигналов, обеспечивающую выравнивание в пространстве управления на протяжении всего видео. Для смягчения ухудшения визуального качества LongVie использует 3) мультимодальную структуру управления, которая интегрирует как плотные (например, карты глубины), так и разреженные (например, ключевые точки) управляющие сигналы, дополненные 4) стратегией обучения, учитывающей деградацию, которая адаптивно балансирует вклад модальностей с течением времени для сохранения визуального качества. Мы также представляем LongVGenBench — комплексный бенчмарк, состоящий из 100 высококачественных видео, охватывающих разнообразные реальные и синтетические среды, каждое продолжительностью более одной минуты. Многочисленные эксперименты показывают, что LongVie достигает передовых показателей в управляемости на длинных дистанциях, согласованности и качестве.
English
Controllable ultra-long video generation is a fundamental yet challenging
task. Although existing methods are effective for short clips, they struggle to
scale due to issues such as temporal inconsistency and visual degradation. In
this paper, we initially investigate and identify three key factors: separate
noise initialization, independent control signal normalization, and the
limitations of single-modality guidance. To address these issues, we propose
LongVie, an end-to-end autoregressive framework for controllable long video
generation. LongVie introduces two core designs to ensure temporal consistency:
1) a unified noise initialization strategy that maintains consistent generation
across clips, and 2) global control signal normalization that enforces
alignment in the control space throughout the entire video. To mitigate visual
degradation, LongVie employs 3) a multi-modal control framework that integrates
both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals,
complemented by 4) a degradation-aware training strategy that adaptively
balances modality contributions over time to preserve visual quality. We also
introduce LongVGenBench, a comprehensive benchmark consisting of 100
high-resolution videos spanning diverse real-world and synthetic environments,
each lasting over one minute. Extensive experiments show that LongVie achieves
state-of-the-art performance in long-range controllability, consistency, and
quality.