LongVie: Generazione Controllabile di Video Ultra-Lunghi con Guida Multimodale
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
August 5, 2025
Autori: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI
Abstract
La generazione controllata di video ultra-lunghi è un compito fondamentale ma impegnativo. Sebbene i metodi esistenti siano efficaci per clip brevi, faticano a scalare a causa di problemi come l'inconsistenza temporale e il degrado visivo. In questo articolo, inizialmente indaghiamo e identifichiamo tre fattori chiave: l'inizializzazione separata del rumore, la normalizzazione indipendente dei segnali di controllo e le limitazioni della guida a singola modalità. Per affrontare questi problemi, proponiamo LongVie, un framework autoregressivo end-to-end per la generazione controllata di video lunghi. LongVie introduce due design principali per garantire la consistenza temporale: 1) una strategia unificata di inizializzazione del rumore che mantiene una generazione coerente tra i clip, e 2) una normalizzazione globale dei segnali di controllo che impone l'allineamento nello spazio di controllo per l'intero video. Per mitigare il degrado visivo, LongVie utilizza 3) un framework di controllo multi-modale che integra sia segnali di controllo densi (ad esempio, mappe di profondità) che sparsi (ad esempio, punti chiave), completato da 4) una strategia di training consapevole del degrado che bilancia adattivamente i contributi delle modalità nel tempo per preservare la qualità visiva. Introduciamo inoltre LongVGenBench, un benchmark completo composto da 100 video ad alta risoluzione che coprono diversi ambienti reali e sintetici, ciascuno della durata di oltre un minuto. Esperimenti estensivi dimostrano che LongVie raggiunge prestazioni all'avanguardia in termini di controllabilità a lungo raggio, consistenza e qualità.
English
Controllable ultra-long video generation is a fundamental yet challenging
task. Although existing methods are effective for short clips, they struggle to
scale due to issues such as temporal inconsistency and visual degradation. In
this paper, we initially investigate and identify three key factors: separate
noise initialization, independent control signal normalization, and the
limitations of single-modality guidance. To address these issues, we propose
LongVie, an end-to-end autoregressive framework for controllable long video
generation. LongVie introduces two core designs to ensure temporal consistency:
1) a unified noise initialization strategy that maintains consistent generation
across clips, and 2) global control signal normalization that enforces
alignment in the control space throughout the entire video. To mitigate visual
degradation, LongVie employs 3) a multi-modal control framework that integrates
both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals,
complemented by 4) a degradation-aware training strategy that adaptively
balances modality contributions over time to preserve visual quality. We also
introduce LongVGenBench, a comprehensive benchmark consisting of 100
high-resolution videos spanning diverse real-world and synthetic environments,
each lasting over one minute. Extensive experiments show that LongVie achieves
state-of-the-art performance in long-range controllability, consistency, and
quality.