ChatPaper.aiChatPaper

LongVie: Multimodal-gesteuerte kontrollierbare Ultra-Langvideo-Generierung

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

August 5, 2025
papers.authors: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI

papers.abstract

Die Erzeugung kontrollierbarer ultra-langer Videos ist eine grundlegende, jedoch herausfordernde Aufgabe. Obwohl bestehende Methoden für kurze Clips effektiv sind, stoßen sie bei der Skalierung aufgrund von Problemen wie zeitlicher Inkonsistenz und visueller Verschlechterung an ihre Grenzen. In dieser Arbeit untersuchen und identifizieren wir zunächst drei Schlüsselfaktoren: separate Rauschinitialisierung, unabhängige Normalisierung von Steuersignalen und die Beschränkungen der Einzelmodalitätsführung. Um diese Probleme zu adressieren, schlagen wir LongVie vor, ein end-to-end autoregressives Framework für die kontrollierte Erzeugung langer Videos. LongVie führt zwei Kernentwürfe ein, um zeitliche Konsistenz zu gewährleisten: 1) eine einheitliche Rauschinitialisierungsstrategie, die eine konsistente Erzeugung über Clips hinweg sicherstellt, und 2) eine globale Normalisierung von Steuersignalen, die eine Ausrichtung im Steuerraum über das gesamte Video hinweg erzwingt. Um visuelle Verschlechterung zu minimieren, verwendet LongVie 3) ein multimodales Steuerungsframework, das sowohl dichte (z. B. Tiefenkarten) als auch spärliche (z. B. Keypoints) Steuersignale integriert, ergänzt durch 4) eine verschlechterungsbewusste Trainingsstrategie, die die Beiträge der Modalitäten über die Zeit hinweg adaptiv ausgleicht, um die visuelle Qualität zu bewahren. Wir stellen außerdem LongVGenBench vor, einen umfassenden Benchmark, der aus 100 hochauflösenden Videos besteht, die vielfältige reale und synthetische Umgebungen abdecken und jeweils über eine Minute dauern. Umfangreiche Experimente zeigen, dass LongVie in Bezug auf Langstreckenkontrollierbarkeit, Konsistenz und Qualität state-of-the-art Leistung erzielt.
English
Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive framework for controllable long video generation. LongVie introduces two core designs to ensure temporal consistency: 1) a unified noise initialization strategy that maintains consistent generation across clips, and 2) global control signal normalization that enforces alignment in the control space throughout the entire video. To mitigate visual degradation, LongVie employs 3) a multi-modal control framework that integrates both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals, complemented by 4) a degradation-aware training strategy that adaptively balances modality contributions over time to preserve visual quality. We also introduce LongVGenBench, a comprehensive benchmark consisting of 100 high-resolution videos spanning diverse real-world and synthetic environments, each lasting over one minute. Extensive experiments show that LongVie achieves state-of-the-art performance in long-range controllability, consistency, and quality.
PDF493August 6, 2025