ChatPaper.aiChatPaper

LongVie 2:マルチモーダル制御可能な超長編ビデオ世界モデル

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

December 15, 2025
著者: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI

要旨

事前学習済み映像生成システムを基盤としたビデオ世界モデルの構築は、時空間的一般知能に向けた重要かつ挑戦的な一歩である。世界モデルは三つの本質的特性を備えるべきである:制御性、長期的な視覚的品質、時間的一貫性である。この目的に向けて、我々は段階的アプローチを採用する―まず制御性を強化し、その後、長期的で高品質な生成へと拡張する。我々はLongVie 2を提案する。これは三段階で学習されるエンドツーエンドの自己回帰的フレームワークである:(1) マルチモーダルガイダンスは、密な制御信号と疎な制御信号を統合し、暗黙的な世界レベル監督を提供して制御性を向上させる;(2) 入力フレームに対する劣化対応学習は、学習と長期推論の間のギャップを埋め、高い視覚的品質を維持する;(3) 履歴文脈ガイダンスは、隣接クリップ間の文脈情報を整合させ、時間的一貫性を保証する。さらに我々はLongVGenBenchを導入する。これは多様な実世界環境と合成環境をカバーする100本の高解像度1分動画から構成される包括的ベンチマークである。大規模な実験により、LongVie 2が長距離制御性、時間的連続性、視覚的忠実度において最先端の性能を達成し、最大5分間の連続的ビデオ生成をサポートすることが実証され、統一的なビデオ世界モデリングに向けた重要な進展を示している。
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.
PDF572December 17, 2025