LongVie 2: Multimodales steuerbares Ultra-Langvideo-Weltmodell
LongVie 2: Multimodal Controllable Ultra-Long Video World Model
December 15, 2025
papers.authors: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI
papers.abstract
Der Aufbau von Video-Weltmodellen auf Basis vortrainierter Videogenerierungssysteme stellt einen wichtigen, jedoch herausfordernden Schritt auf dem Weg zu einer allgemeinen raumzeitlichen Intelligenz dar. Ein Weltmodell sollte drei wesentliche Eigenschaften besitzen: Steuerbarkeit, langfristige visuelle Qualität und zeitliche Konsistenz. Zu diesem Zweck verfolgen wir einen progressiven Ansatz – zunächst wird die Steuerbarkeit verbessert und dann auf langfristige, hochwertige Generierung erweitert. Wir präsentieren LongVie 2, ein end-to-end autoregressives Framework, das in drei Stufen trainiert wird: (1) Multimodale Führung, die dichte und spärliche Steuersignale integriert, um implizite Überwachung auf Weltebene bereitzustellen und die Steuerbarkeit zu verbessern; (2) Degradationsbewusstes Training des Eingabebildes, das die Lücke zwischen Training und langfristiger Inferenz schließt, um eine hohe visuelle Qualität zu erhalten; und (3) Historien-Kontextführung, die kontextuelle Informationen über benachbarte Clips hinweg abstimmt, um zeitliche Konsistenz zu gewährleisten. Wir führen außerdem LongVGenBench ein, einen umfassenden Benchmark, der 100 hochauflösende Ein-Minuten-Videos umfasst, die verschiedene reale und synthetische Umgebungen abdecken. Umfangreiche Experimente zeigen, dass LongVie 2 state-of-the-art Leistung in langreichweitiger Steuerbarkeit, zeitlicher Kohärenz und visueller Treue erreicht und kontinuierliche Videogenerierung von bis zu fünf Minuten Dauer unterstützt, was einen bedeutenden Schritt in Richtung eines vereinheitlichten Video-Weltmodellierens darstellt.
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.