LongVie: 멀티모달 가이드를 통한 제어 가능한 초장기 비디오 생성
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
August 5, 2025
저자: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI
초록
제어 가능한 초장기 비디오 생성은 근본적이면서도 도전적인 과제입니다. 기존 방법들은 짧은 클립에 대해서는 효과적이지만, 시간적 불일치와 시각적 품질 저하와 같은 문제로 인해 확장에 어려움을 겪고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 세 가지 핵심 요소를 조사하고 식별했습니다: 분리된 노이즈 초기화, 독립적인 제어 신호 정규화, 그리고 단일 모달리티 지도의 한계입니다. 이러한 문제를 해결하기 위해, 우리는 제어 가능한 장기 비디오 생성을 위한 종단 간 자기회귀 프레임워크인 LongVie를 제안합니다. LongVie는 시간적 일관성을 보장하기 위해 두 가지 핵심 설계를 도입했습니다: 1) 클립 간 일관된 생성을 유지하는 통합 노이즈 초기화 전략, 그리고 2) 전체 비디오에 걸쳐 제어 공간에서의 정렬을 강제하는 전역 제어 신호 정규화입니다. 시각적 품질 저하를 완화하기 위해, LongVie는 3) 밀집된(예: 깊이 맵)과 희소한(예: 키포인트) 제어 신호를 통합하는 다중 모달리티 제어 프레임워크를 사용하며, 4) 시간에 따라 모달리티 기여도를 적응적으로 조정하여 시각적 품질을 유지하는 품질 저하 인식 훈련 전략을 보완합니다. 또한, 우리는 100개의 고해상도 비디오로 구성된 LongVGenBench를 소개합니다. 이 벤치마크는 다양한 실제 환경과 합성 환경을 아우르며, 각 비디오는 1분 이상의 길이를 가지고 있습니다. 광범위한 실험을 통해 LongVie가 장거리 제어성, 일관성, 그리고 품질에서 최첨단 성능을 달성함을 보여줍니다.
English
Controllable ultra-long video generation is a fundamental yet challenging
task. Although existing methods are effective for short clips, they struggle to
scale due to issues such as temporal inconsistency and visual degradation. In
this paper, we initially investigate and identify three key factors: separate
noise initialization, independent control signal normalization, and the
limitations of single-modality guidance. To address these issues, we propose
LongVie, an end-to-end autoregressive framework for controllable long video
generation. LongVie introduces two core designs to ensure temporal consistency:
1) a unified noise initialization strategy that maintains consistent generation
across clips, and 2) global control signal normalization that enforces
alignment in the control space throughout the entire video. To mitigate visual
degradation, LongVie employs 3) a multi-modal control framework that integrates
both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals,
complemented by 4) a degradation-aware training strategy that adaptively
balances modality contributions over time to preserve visual quality. We also
introduce LongVGenBench, a comprehensive benchmark consisting of 100
high-resolution videos spanning diverse real-world and synthetic environments,
each lasting over one minute. Extensive experiments show that LongVie achieves
state-of-the-art performance in long-range controllability, consistency, and
quality.