Holo-World: ビデオワールドモデルのためのカメラ・物体・天候の統合制御
Holo-World: Unified Camera, Object and Weather Control for Video World Model
June 18, 2026
著者: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun
cs.AI
要旨
ビデオワールドモデルは、カメラと物体の動きを制御可能にしつつ、観測された世界を保存し、環境状態の変化を許容する方向へと進んでいる。しかし、これらの制御は依然として独立しており、天候生成は通常、将来の構造をすでに特定するソースビデオや再構成されたシーンに依存している。本研究では、最初のフレームを基準としたソース・トゥ・ステート設定を研究する。この設定では、モデルは単一画像から開始し、明示的なカメラと物体の制御、およびオプションの天候指示に従って、ソースの世界を保持するか、あるいは対象の天候状態に転送するビデオを生成する。これらの課題に取り組むために、まずHoloStateDataを構築する。これは、多様なビデオをカメラ、物体、天候の監視のための統一された制御サンプルに変換する状態ビデオデータセットである。次に、単一画像からシーンを共同制御する統合制御可能ビデオワールドモデルであるHolo-Worldを導入する。その統一シーンアダプターは、世界保存と天候転送を別個のパラメータ部分空間に分解し、レンダリングされた背景、ジオメトリバッファ、物体制御を用いて、制御されたシーン構造を維持しながら、天候に依存する外観や粒子効果をモデル化する。さらに、シーン・天候分解CFGは、シーン残差と天候残差を個別にガイドし、全条件を過度に増幅することなく、対象の天候効果を強化する。定量的および定性的な実験により、Holo-Worldは、正確なカメラと物体の制御と一貫したシーン構造を維持しながら、シーンを多様な対象天候状態に転送し、天候状態生成においてビデオ間天候編集ベースラインを上回ることを示す。プロジェクトページはhttps://xiangchenyin.github.io/Holo-World/で公開している。
English
Video world models are moving toward preserving an observed world under controllable camera and object motion while allowing its environmental state to change. Yet these controls remain isolated, and weather generation typically relies on a source video or reconstructed scene that already specifies future structure. We study a first-frame-anchored source-to-state setting, where the model starts from a single image and follows explicit camera and object controls and an optional weather instruction, then generates a video that either preserves the source world or transfers it to a target weather state. To address these challenges, we first build HoloStateData, a state video dataset that turns diverse videos into unified control samples for camera, object, and weather supervision. Second, we introduce Holo-World, a unified controllable video world model that jointly controls scene from a single image. Its Unified Scene Adapter factorizes world preservation and weather transfer into distinct parameter subspaces, using rendered background, geometry buffers, and object controls to maintain controlled scene structure while modeling weather-dependent appearance and particle effects. Additionally, Scene-Weather Decomposed CFG guides scene and weather residuals separately, strengthening target weather effects without over-amplifying the full condition. Quantitative and qualitative experiments demonstrate that Holo-World maintains precise camera and object control with consistent scene structure while transferring scenes into diverse target weather state, outperforming video-to-video weather editing baselines on weather-state generation. Our project page is available at https://xiangchenyin.github.io/Holo-World/.