ChatPaper.aiChatPaper

Holo-World: Geïntegreerde camera-, object- en weercontrole voor videowereldmodellen

Holo-World: Unified Camera, Object and Weather Control for Video World Model

June 18, 2026
Auteurs: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun
cs.AI

Samenvatting

Videowereldmodellen evolueren naar het behouden van een waargenomen wereld onder controleerbare camera- en objectbewegingen, terwijl de omgevingstoestand kan veranderen. Deze besturingen blijven echter geïsoleerd, en weergeneratie is doorgaans afhankelijk van een bronvideo of gereconstrueerde scène die al een toekomstige structuur specificeert. Wij bestuderen een eerste-frame-verankerde bron-naar-toestand instelling, waarbij het model start vanuit één enkele afbeelding en expliciete camera- en objectbesturingen en een optionele weerinstructie volgt, waarna het een video genereert die ofwel de bronwereld behoudt ofwel overgaat naar een doelweertoestand. Om deze uitdagingen aan te pakken, bouwen we eerst HoloStateData, een toestandsvideodataset die diverse video's omzet in uniforme besturingssamples voor camera-, object- en weersupervisie. Ten tweede introduceren we Holo-World, een uniform controleerbaar videowereldmodel dat gezamenlijk de scène vanuit één enkele afbeelding bestuurt. De Uniforme Scène-Adapter factoriseert wereldbehoud en weersoverdracht in verschillende parametersubruimten, waarbij gerenderde achtergrond, geometriebuffers en objectbesturingen worden gebruikt om de gecontroleerde scènestructuur te behouden terwijl weersafhankelijke verschijning en deeltjeseffecten worden gemodelleerd. Daarnaast stuurt Scène-Weer Uiteengezette CFG scène- en weesresten afzonderlijk aan, waardoor doeleffecten worden versterkt zonder de volledige conditie overdreven te versterken. Kwantitatieve en kwalitatieve experimenten tonen aan dat Holo-World nauwkeurige camera- en objectbesturing met consistente scènestructuur handhaaft, terwijl scènes worden overgebracht naar diverse doelweertoestanden, waarbij het beter presteert dan video-naar-video weerbewerkingsbaselines op het gebied van toestandsgeneratie. Onze projectpagina is beschikbaar op https://xiangchenyin.github.io/Holo-World/.
English
Video world models are moving toward preserving an observed world under controllable camera and object motion while allowing its environmental state to change. Yet these controls remain isolated, and weather generation typically relies on a source video or reconstructed scene that already specifies future structure. We study a first-frame-anchored source-to-state setting, where the model starts from a single image and follows explicit camera and object controls and an optional weather instruction, then generates a video that either preserves the source world or transfers it to a target weather state. To address these challenges, we first build HoloStateData, a state video dataset that turns diverse videos into unified control samples for camera, object, and weather supervision. Second, we introduce Holo-World, a unified controllable video world model that jointly controls scene from a single image. Its Unified Scene Adapter factorizes world preservation and weather transfer into distinct parameter subspaces, using rendered background, geometry buffers, and object controls to maintain controlled scene structure while modeling weather-dependent appearance and particle effects. Additionally, Scene-Weather Decomposed CFG guides scene and weather residuals separately, strengthening target weather effects without over-amplifying the full condition. Quantitative and qualitative experiments demonstrate that Holo-World maintains precise camera and object control with consistent scene structure while transferring scenes into diverse target weather state, outperforming video-to-video weather editing baselines on weather-state generation. Our project page is available at https://xiangchenyin.github.io/Holo-World/.