Holo-World: унифицированное управление камерой, объектами и погодой для модели видеомира
Holo-World: Unified Camera, Object and Weather Control for Video World Model
June 18, 2026
Авторы: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun
cs.AI
Аннотация
Модели мира видео движутся в сторону сохранения наблюдаемого мира при управляемом движении камеры и объектов, одновременно допуская изменение его состояния окружающей среды. Однако эти средства управления остаются изолированными, и генерация погоды обычно опирается на исходное видео или реконструированную сцену, которая уже задает будущую структуру. Мы изучаем настройку «источник-состояние» с привязкой к первому кадру, где модель начинает работу с одного изображения, следует явным командам управления камерой и объектами, а также опциональным указанием погоды, после чего генерирует видео, которое либо сохраняет исходный мир, либо переносит его в целевое состояние погоды. Для решения этих задач мы сначала создаем HoloStateData — набор видеоданных состояний, который преобразует разнообразные видео в унифицированные образцы управления для контроля камеры, объектов и погоды. Во-вторых, мы представляем Holo-World — унифицированную управляемую модель мира видео, которая совместно управляет сценой на основе одного изображения. Ее унифицированный адаптер сцены факторизует сохранение мира и перенос погоды в различные подпространства параметров, используя визуализированный фон, буферы геометрии и управление объектами для поддержания управляемой структуры сцены при моделировании зависящих от погоды внешнего вида и эффектов частиц. Кроме того, разложенный CFG «сцена-погода» направляет остатки сцены и погоды отдельно, усиливая целевые погодные эффекты без чрезмерного усиления полного условия. Количественные и качественные эксперименты показывают, что Holo-World сохраняет точное управление камерой и объектами с согласованной структурой сцены, перенося сцены в различные целевые состояния погоды, превосходя базовые методы редактирования погоды из видео в видео в генерации состояний погоды. Страница проекта доступна по адресу https://xiangchenyin.github.io/Holo-World/.
English
Video world models are moving toward preserving an observed world under controllable camera and object motion while allowing its environmental state to change. Yet these controls remain isolated, and weather generation typically relies on a source video or reconstructed scene that already specifies future structure. We study a first-frame-anchored source-to-state setting, where the model starts from a single image and follows explicit camera and object controls and an optional weather instruction, then generates a video that either preserves the source world or transfers it to a target weather state. To address these challenges, we first build HoloStateData, a state video dataset that turns diverse videos into unified control samples for camera, object, and weather supervision. Second, we introduce Holo-World, a unified controllable video world model that jointly controls scene from a single image. Its Unified Scene Adapter factorizes world preservation and weather transfer into distinct parameter subspaces, using rendered background, geometry buffers, and object controls to maintain controlled scene structure while modeling weather-dependent appearance and particle effects. Additionally, Scene-Weather Decomposed CFG guides scene and weather residuals separately, strengthening target weather effects without over-amplifying the full condition. Quantitative and qualitative experiments demonstrate that Holo-World maintains precise camera and object control with consistent scene structure while transferring scenes into diverse target weather state, outperforming video-to-video weather editing baselines on weather-state generation. Our project page is available at https://xiangchenyin.github.io/Holo-World/.