Holo-World: Control unificado de cámara, objetos y clima para el modelo de mundo de video
Holo-World: Unified Camera, Object and Weather Control for Video World Model
June 18, 2026
Autores: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun
cs.AI
Resumen
Los modelos de mundo en video están avanzando hacia la preservación de un mundo observado bajo movimientos controlables de cámara y objetos, al mismo tiempo que permiten cambios en su estado ambiental. Sin embargo, estos controles permanecen aislados, y la generación climática suele depender de un video de origen o de una escena reconstruida que ya especifica la estructura futura. Estudiamos un entorno de estado anclado al primer fotograma, donde el modelo parte de una única imagen y sigue controles explícitos de cámara y objetos, además de una instrucción climática opcional, para luego generar un video que preserva el mundo original o lo transfiere a un estado climático objetivo. Para abordar estos desafíos, primero construimos HoloStateData, un conjunto de datos de video en estado que convierte diversos videos en muestras de control unificadas para supervisar cámara, objetos y clima. En segundo lugar, presentamos Holo-World, un modelo de mundo en video controlable y unificado que dirige conjuntamente la escena a partir de una sola imagen. Su Adaptador de Escena Unificado factoriza la preservación del mundo y la transferencia climática en subespacios de parámetros distintos, utilizando fondo renderizado, búferes geométricos y controles de objetos para mantener la estructura de la escena controlada mientras modela la apariencia dependiente del clima y los efectos de partículas. Además, la CFG Descompuesta en Escena y Clima guía los residuos de escena y clima por separado, fortaleciendo los efectos climáticos objetivo sin amplificar en exceso la condición completa. Experimentos cuantitativos y cualitativos demuestran que Holo-World mantiene un control preciso de cámara y objetos con una estructura de escena consistente, al tiempo que transfiere escenas a diversos estados climáticos objetivo, superando a las líneas base de edición climática de video a video en la generación de estado climático. Nuestra página del proyecto está disponible en https://xiangchenyin.github.io/Holo-World/.
English
Video world models are moving toward preserving an observed world under controllable camera and object motion while allowing its environmental state to change. Yet these controls remain isolated, and weather generation typically relies on a source video or reconstructed scene that already specifies future structure. We study a first-frame-anchored source-to-state setting, where the model starts from a single image and follows explicit camera and object controls and an optional weather instruction, then generates a video that either preserves the source world or transfers it to a target weather state. To address these challenges, we first build HoloStateData, a state video dataset that turns diverse videos into unified control samples for camera, object, and weather supervision. Second, we introduce Holo-World, a unified controllable video world model that jointly controls scene from a single image. Its Unified Scene Adapter factorizes world preservation and weather transfer into distinct parameter subspaces, using rendered background, geometry buffers, and object controls to maintain controlled scene structure while modeling weather-dependent appearance and particle effects. Additionally, Scene-Weather Decomposed CFG guides scene and weather residuals separately, strengthening target weather effects without over-amplifying the full condition. Quantitative and qualitative experiments demonstrate that Holo-World maintains precise camera and object control with consistent scene structure while transferring scenes into diverse target weather state, outperforming video-to-video weather editing baselines on weather-state generation. Our project page is available at https://xiangchenyin.github.io/Holo-World/.