Holo-World : Contrôle unifié de la caméra, des objets et de la météo pour un modèle de monde vidéo
Holo-World: Unified Camera, Object and Weather Control for Video World Model
June 18, 2026
Auteurs: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun
cs.AI
Résumé
Les modèles de monde vidéo évoluent vers la préservation d'un monde observé sous un mouvement contrôlable de la caméra et des objets, tout en permettant à son état environnemental de changer. Pourtant, ces contrôles restent isolés, et la génération météorologique repose généralement sur une vidéo source ou une scène reconstruite qui spécifie déjà la structure future. Nous étudions un cadre source-à-état ancré sur la première image, où le modèle part d'une seule image et suit des contrôles explicites de la caméra et des objets ainsi qu'une instruction météorologique optionnelle, puis génère une vidéo qui soit préserve le monde source, soit le transfère vers un état météorologique cible. Pour relever ces défis, nous construisons d'abord HoloStateData, un ensemble de données vidéo d'état qui transforme diverses vidéos en échantillons de contrôle unifiés pour la supervision de la caméra, des objets et de la météo. Ensuite, nous introduisons Holo-World, un modèle de monde vidéo contrôlable unifié qui contrôle conjointement la scène à partir d'une seule image. Son adaptateur de scène unifié factorise la préservation du monde et le transfert météorologique en sous-espaces de paramètres distincts, utilisant un arrière-plan rendu, des tampons de géométrie et des contrôles d'objets pour maintenir la structure de scène contrôlée tout en modélisant l'apparence dépendante de la météo et les effets de particules. De plus, le CFG décomposé scène-météo guide les résidus de scène et de météo séparément, renforçant les effets météorologiques cibles sans suramplifier la condition complète. Des expériences quantitatives et qualitatives démontrent que Holo-World maintient un contrôle précis de la caméra et des objets avec une structure de scène cohérente tout en transférant les scènes vers divers états météorologiques cibles, surpassant les bases de référence d'édition météorologique vidéo-à-vidéo sur la génération d'état météorologique. Notre page de projet est disponible à l'adresse https://xiangchenyin.github.io/Holo-World/.
English
Video world models are moving toward preserving an observed world under controllable camera and object motion while allowing its environmental state to change. Yet these controls remain isolated, and weather generation typically relies on a source video or reconstructed scene that already specifies future structure. We study a first-frame-anchored source-to-state setting, where the model starts from a single image and follows explicit camera and object controls and an optional weather instruction, then generates a video that either preserves the source world or transfers it to a target weather state. To address these challenges, we first build HoloStateData, a state video dataset that turns diverse videos into unified control samples for camera, object, and weather supervision. Second, we introduce Holo-World, a unified controllable video world model that jointly controls scene from a single image. Its Unified Scene Adapter factorizes world preservation and weather transfer into distinct parameter subspaces, using rendered background, geometry buffers, and object controls to maintain controlled scene structure while modeling weather-dependent appearance and particle effects. Additionally, Scene-Weather Decomposed CFG guides scene and weather residuals separately, strengthening target weather effects without over-amplifying the full condition. Quantitative and qualitative experiments demonstrate that Holo-World maintains precise camera and object control with consistent scene structure while transferring scenes into diverse target weather state, outperforming video-to-video weather editing baselines on weather-state generation. Our project page is available at https://xiangchenyin.github.io/Holo-World/.