Holo-World: 비디오 월드 모델을 위한 통합 카메라, 객체 및 날씨 제어
Holo-World: Unified Camera, Object and Weather Control for Video World Model
June 18, 2026
저자: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun
cs.AI
초록
비디오 세계 모델은 제어 가능한 카메라 및 객체 움직임 하에서 관찰된 세계를 보존하면서 환경 상태를 변화시킬 수 있는 방향으로 발전하고 있다. 그러나 이러한 제어는 여전히 개별적으로 이루어지며, 날씨 생성은 일반적으로 미래 구조를 이미 명시한 소스 비디오나 재구성된 장면에 의존한다. 본 연구는 첫 프레임 기반의 소스-상태 설정을 다룬다. 이 설정에서 모델은 단일 이미지로부터 시작하여 명시적인 카메라 및 객체 제어와 선택적 날씨 명령을 따르며, 소스 세계를 보존하거나 목표 날씨 상태로 전환하는 비디오를 생성한다. 이러한 과제를 해결하기 위해, 먼저 다양한 비디오를 카메라, 객체, 날씨 감독을 위한 통합 제어 샘플로 변환하는 상태 비디오 데이터셋 HoloStateData를 구축한다. 둘째, 단일 이미지로부터 장면을 공동 제어하는 통합 제어 가능 비디오 세계 모델 Holo-World를 소개한다. 이 모델의 통합 장면 어댑터(Unified Scene Adapter)는 세계 보존과 날씨 전환을 별개의 파라미터 부분 공간으로 분해하며, 렌더링된 배경, 지오메트리 버퍼, 객체 제어를 활용하여 제어된 장면 구조를 유지하면서 날씨에 따른 외관 및 입자 효과를 모델링한다. 또한, 장면-날씨 분해 CFG(Scene-Weather Decomposed CFG)는 장면 잔차와 날씨 잔차를 별도로 안내하여 전체 조건을 과도하게 증폭시키지 않으면서 목표 날씨 효과를 강화한다. 양적 및 질적 실험 결과, Holo-World는 일관된 장면 구조를 유지하며 정밀한 카메라 및 객체 제어를 제공하면서, 다양한 목표 날씨 상태로 장면을 전환하여 날씨 상태 생성에서 비디오-투-비디오 날씨 편집 기준선을 능가하는 성능을 보였다. 프로젝트 페이지는 https://xiangchenyin.github.io/Holo-World/에서 확인할 수 있다.
English
Video world models are moving toward preserving an observed world under controllable camera and object motion while allowing its environmental state to change. Yet these controls remain isolated, and weather generation typically relies on a source video or reconstructed scene that already specifies future structure. We study a first-frame-anchored source-to-state setting, where the model starts from a single image and follows explicit camera and object controls and an optional weather instruction, then generates a video that either preserves the source world or transfers it to a target weather state. To address these challenges, we first build HoloStateData, a state video dataset that turns diverse videos into unified control samples for camera, object, and weather supervision. Second, we introduce Holo-World, a unified controllable video world model that jointly controls scene from a single image. Its Unified Scene Adapter factorizes world preservation and weather transfer into distinct parameter subspaces, using rendered background, geometry buffers, and object controls to maintain controlled scene structure while modeling weather-dependent appearance and particle effects. Additionally, Scene-Weather Decomposed CFG guides scene and weather residuals separately, strengthening target weather effects without over-amplifying the full condition. Quantitative and qualitative experiments demonstrate that Holo-World maintains precise camera and object control with consistent scene structure while transferring scenes into diverse target weather state, outperforming video-to-video weather editing baselines on weather-state generation. Our project page is available at https://xiangchenyin.github.io/Holo-World/.