LongVie: Generazione Controllabile di Video Ultra-Lunghi con Guida Multimodale

Abstract

La generazione controllata di video ultra-lunghi è un compito fondamentale ma impegnativo. Sebbene i metodi esistenti siano efficaci per clip brevi, faticano a scalare a causa di problemi come l'inconsistenza temporale e il degrado visivo. In questo articolo, inizialmente indaghiamo e identifichiamo tre fattori chiave: l'inizializzazione separata del rumore, la normalizzazione indipendente dei segnali di controllo e le limitazioni della guida a singola modalità. Per affrontare questi problemi, proponiamo LongVie, un framework autoregressivo end-to-end per la generazione controllata di video lunghi. LongVie introduce due design principali per garantire la consistenza temporale: 1) una strategia unificata di inizializzazione del rumore che mantiene una generazione coerente tra i clip, e 2) una normalizzazione globale dei segnali di controllo che impone l'allineamento nello spazio di controllo per l'intero video. Per mitigare il degrado visivo, LongVie utilizza 3) un framework di controllo multi-modale che integra sia segnali di controllo densi (ad esempio, mappe di profondità) che sparsi (ad esempio, punti chiave), completato da 4) una strategia di training consapevole del degrado che bilancia adattivamente i contributi delle modalità nel tempo per preservare la qualità visiva. Introduciamo inoltre LongVGenBench, un benchmark completo composto da 100 video ad alta risoluzione che coprono diversi ambienti reali e sintetici, ciascuno della durata di oltre un minuto. Esperimenti estensivi dimostrano che LongVie raggiunge prestazioni all'avanguardia in termini di controllabilità a lungo raggio, consistenza e qualità.

English

Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive framework for controllable long video generation. LongVie introduces two core designs to ensure temporal consistency: 1) a unified noise initialization strategy that maintains consistent generation across clips, and 2) global control signal normalization that enforces alignment in the control space throughout the entire video. To mitigate visual degradation, LongVie employs 3) a multi-modal control framework that integrates both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals, complemented by 4) a degradation-aware training strategy that adaptively balances modality contributions over time to preserve visual quality. We also introduce LongVGenBench, a comprehensive benchmark consisting of 100 high-resolution videos spanning diverse real-world and synthetic environments, each lasting over one minute. Extensive experiments show that LongVie achieves state-of-the-art performance in long-range controllability, consistency, and quality.

LongVie: Generazione Controllabile di Video Ultra-Lunghi con Guida Multimodale

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

Abstract

Support