ChatPaper.aiChatPaper

LongVie: マルチモーダル誘導型制御可能超長尺動画生成

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

August 5, 2025
著者: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI

要旨

制御可能な超長尺動画生成は、基本的でありながらも困難な課題である。既存の手法は短尺クリップに対して有効であるが、時間的な不整合や視覚的劣化といった問題により、スケーリングが困難である。本論文では、まず初めに、分離されたノイズ初期化、独立した制御信号の正規化、および単一モダリティガイダンスの限界という3つの主要な要因を調査し、特定する。これらの課題に対処するため、我々はLongVieを提案する。LongVieは、制御可能な長尺動画生成のためのエンドツーエンドの自己回帰型フレームワークであり、時間的な一貫性を確保するために2つのコア設計を導入している:1) クリップ間で一貫した生成を維持する統一ノイズ初期化戦略、および2) ビデオ全体を通じて制御空間での整合性を強制するグローバル制御信号正規化である。視覚的劣化を軽減するために、LongVieは3) 密な(例:深度マップ)および疎な(例:キーポイント)制御信号を統合するマルチモーダル制御フレームワークを採用し、4) 時間の経過に伴うモダリティの貢献を適応的にバランスさせて視覚品質を維持する劣化認識型トレーニング戦略を補完している。また、我々はLongVGenBenchを導入する。これは、多様な実世界および合成環境にわたる100本の高解像度ビデオから成る包括的なベンチマークであり、各ビデオは1分以上続く。大規模な実験により、LongVieが長距離制御性、一貫性、および品質において最先端の性能を達成することが示された。
English
Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive framework for controllable long video generation. LongVie introduces two core designs to ensure temporal consistency: 1) a unified noise initialization strategy that maintains consistent generation across clips, and 2) global control signal normalization that enforces alignment in the control space throughout the entire video. To mitigate visual degradation, LongVie employs 3) a multi-modal control framework that integrates both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals, complemented by 4) a degradation-aware training strategy that adaptively balances modality contributions over time to preserve visual quality. We also introduce LongVGenBench, a comprehensive benchmark consisting of 100 high-resolution videos spanning diverse real-world and synthetic environments, each lasting over one minute. Extensive experiments show that LongVie achieves state-of-the-art performance in long-range controllability, consistency, and quality.
PDF493August 6, 2025