Holo-World: Controle Unificado de Câmera, Objeto e Clima para Modelo de Mundo em Vídeo
Holo-World: Unified Camera, Object and Weather Control for Video World Model
June 18, 2026
Autores: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun
cs.AI
Resumo
Os modelos de mundo em vídeo estão avançando em direção à preservação de um mundo observado sob movimentos controláveis de câmera e objeto, permitindo que seu estado ambiental mude. No entanto, esses controles permanecem isolados, e a geração de clima geralmente depende de um vídeo de origem ou cena reconstruída que já especifica a estrutura futura. Estudamos uma configuração de origem-para-estado ancorada no primeiro quadro, onde o modelo parte de uma única imagem e segue controles explícitos de câmera e objeto, além de uma instrução opcional de clima, e então gera um vídeo que preserva o mundo de origem ou o transfere para um estado climático de destino. Para enfrentar esses desafios, primeiro construímos o HoloStateData, um conjunto de dados de vídeo de estado que transforma diversos vídeos em amostras de controle unificadas para supervisão de câmera, objeto e clima. Em segundo lugar, apresentamos o Holo-World, um modelo de mundo de vídeo controlável e unificado que controla conjuntamente a cena a partir de uma única imagem. Seu Adaptador de Cena Unificado fatora a preservação do mundo e a transferência de clima em subespaços de parâmetros distintos, usando fundo renderizado, buffers de geometria e controles de objeto para manter a estrutura da cena controlada enquanto modela a aparência dependente do clima e efeitos de partículas. Além disso, o CFG Decomposto Cena-Clima orienta os resíduos de cena e clima separadamente, fortalecendo os efeitos climáticos de destino sem amplificar excessivamente a condição completa. Experimentos quantitativos e qualitativos demonstram que o Holo-World mantém controle preciso de câmera e objeto com estrutura de cena consistente, enquanto transfere cenas para diversos estados climáticos de destino, superando as linhas de base de edição de clima vídeo-para-vídeo na geração de estado climático. Nossa página do projeto está disponível em https://xiangchenyin.github.io/Holo-World/.
English
Video world models are moving toward preserving an observed world under controllable camera and object motion while allowing its environmental state to change. Yet these controls remain isolated, and weather generation typically relies on a source video or reconstructed scene that already specifies future structure. We study a first-frame-anchored source-to-state setting, where the model starts from a single image and follows explicit camera and object controls and an optional weather instruction, then generates a video that either preserves the source world or transfers it to a target weather state. To address these challenges, we first build HoloStateData, a state video dataset that turns diverse videos into unified control samples for camera, object, and weather supervision. Second, we introduce Holo-World, a unified controllable video world model that jointly controls scene from a single image. Its Unified Scene Adapter factorizes world preservation and weather transfer into distinct parameter subspaces, using rendered background, geometry buffers, and object controls to maintain controlled scene structure while modeling weather-dependent appearance and particle effects. Additionally, Scene-Weather Decomposed CFG guides scene and weather residuals separately, strengthening target weather effects without over-amplifying the full condition. Quantitative and qualitative experiments demonstrate that Holo-World maintains precise camera and object control with consistent scene structure while transferring scenes into diverse target weather state, outperforming video-to-video weather editing baselines on weather-state generation. Our project page is available at https://xiangchenyin.github.io/Holo-World/.