ChatPaper.aiChatPaper

LongVie: 멀티모달 가이드를 통한 제어 가능한 초장기 비디오 생성

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

August 5, 2025
저자: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI

초록

제어 가능한 초장기 비디오 생성은 근본적이면서도 도전적인 과제입니다. 기존 방법들은 짧은 클립에 대해서는 효과적이지만, 시간적 불일치와 시각적 품질 저하와 같은 문제로 인해 확장에 어려움을 겪고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 세 가지 핵심 요소를 조사하고 식별했습니다: 분리된 노이즈 초기화, 독립적인 제어 신호 정규화, 그리고 단일 모달리티 지도의 한계입니다. 이러한 문제를 해결하기 위해, 우리는 제어 가능한 장기 비디오 생성을 위한 종단 간 자기회귀 프레임워크인 LongVie를 제안합니다. LongVie는 시간적 일관성을 보장하기 위해 두 가지 핵심 설계를 도입했습니다: 1) 클립 간 일관된 생성을 유지하는 통합 노이즈 초기화 전략, 그리고 2) 전체 비디오에 걸쳐 제어 공간에서의 정렬을 강제하는 전역 제어 신호 정규화입니다. 시각적 품질 저하를 완화하기 위해, LongVie는 3) 밀집된(예: 깊이 맵)과 희소한(예: 키포인트) 제어 신호를 통합하는 다중 모달리티 제어 프레임워크를 사용하며, 4) 시간에 따라 모달리티 기여도를 적응적으로 조정하여 시각적 품질을 유지하는 품질 저하 인식 훈련 전략을 보완합니다. 또한, 우리는 100개의 고해상도 비디오로 구성된 LongVGenBench를 소개합니다. 이 벤치마크는 다양한 실제 환경과 합성 환경을 아우르며, 각 비디오는 1분 이상의 길이를 가지고 있습니다. 광범위한 실험을 통해 LongVie가 장거리 제어성, 일관성, 그리고 품질에서 최첨단 성능을 달성함을 보여줍니다.
English
Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive framework for controllable long video generation. LongVie introduces two core designs to ensure temporal consistency: 1) a unified noise initialization strategy that maintains consistent generation across clips, and 2) global control signal normalization that enforces alignment in the control space throughout the entire video. To mitigate visual degradation, LongVie employs 3) a multi-modal control framework that integrates both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals, complemented by 4) a degradation-aware training strategy that adaptively balances modality contributions over time to preserve visual quality. We also introduce LongVGenBench, a comprehensive benchmark consisting of 100 high-resolution videos spanning diverse real-world and synthetic environments, each lasting over one minute. Extensive experiments show that LongVie achieves state-of-the-art performance in long-range controllability, consistency, and quality.
PDF493August 6, 2025