LongVie: Multimodale-geleide beheersbare ultra-lange videogeneratie
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
August 5, 2025
Auteurs: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI
Samenvatting
Beheersbare ultra-lange videogeneratie is een fundamentele maar uitdagende taak. Hoewel bestaande methoden effectief zijn voor korte clips, hebben ze moeite om op te schalen vanwege problemen zoals temporele inconsistentie en visuele degradatie. In dit artikel onderzoeken en identificeren we aanvankelijk drie sleutelfactoren: afzonderlijke ruisinitialisatie, onafhankelijke normalisatie van controlesignalen en de beperkingen van single-modality begeleiding. Om deze problemen aan te pakken, stellen we LongVie voor, een end-to-end autoregressief framework voor beheersbare lange videogeneratie. LongVie introduceert twee kernontwerpen om temporele consistentie te waarborgen: 1) een uniforme ruisinitialisatiestrategie die consistente generatie over clips heen handhaaft, en 2) globale normalisatie van controlesignalen die afstemming in de controle ruimte gedurende de hele video afdwingt. Om visuele degradatie te verminderen, maakt LongVie gebruik van 3) een multi-modale controleframework dat zowel dichte (bijv. dieptekaarten) als schaarse (bijv. keypoints) controlesignalen integreert, aangevuld met 4) een degradatiebewuste trainingsstrategie die de bijdragen van modaliteiten over de tijd adaptief in balans brengt om de visuele kwaliteit te behouden. We introduceren ook LongVGenBench, een uitgebreide benchmark bestaande uit 100 hoogwaardige video's die diverse real-world en synthetische omgevingen beslaan, elk langer dan een minuut. Uitgebreide experimenten tonen aan dat LongVie state-of-the-art prestaties bereikt op het gebied van langeafstandsbeheersbaarheid, consistentie en kwaliteit.
English
Controllable ultra-long video generation is a fundamental yet challenging
task. Although existing methods are effective for short clips, they struggle to
scale due to issues such as temporal inconsistency and visual degradation. In
this paper, we initially investigate and identify three key factors: separate
noise initialization, independent control signal normalization, and the
limitations of single-modality guidance. To address these issues, we propose
LongVie, an end-to-end autoregressive framework for controllable long video
generation. LongVie introduces two core designs to ensure temporal consistency:
1) a unified noise initialization strategy that maintains consistent generation
across clips, and 2) global control signal normalization that enforces
alignment in the control space throughout the entire video. To mitigate visual
degradation, LongVie employs 3) a multi-modal control framework that integrates
both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals,
complemented by 4) a degradation-aware training strategy that adaptively
balances modality contributions over time to preserve visual quality. We also
introduce LongVGenBench, a comprehensive benchmark consisting of 100
high-resolution videos spanning diverse real-world and synthetic environments,
each lasting over one minute. Extensive experiments show that LongVie achieves
state-of-the-art performance in long-range controllability, consistency, and
quality.