ChatPaper.aiChatPaper

Holo-World: Einheitliche Kamera-, Objekt- und Wettersteuerung für Videoweltmodelle

Holo-World: Unified Camera, Object and Weather Control for Video World Model

June 18, 2026
Autoren: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun
cs.AI

Zusammenfassung

Videoweltmodelle bewegen sich zunehmend in Richtung der Bewahrung einer beobachteten Welt unter steuerbarer Kamera- und Objektbewegung, während Änderungen ihres Umweltzustands ermöglicht werden. Dennoch bleiben diese Steuerungen isoliert, und die Wettergenerierung stützt sich typischerweise auf ein Quellvideo oder eine rekonstruierte Szene, die bereits die zukünftige Struktur vorgibt. Wir untersuchen ein erst-frame-verankertes Quelle-zu-Zustand-Setting, bei dem das Modell von einem einzelnen Bild ausgeht, explizite Kamera- und Objektsteuerungen sowie eine optionale Wetteranweisung erhält und dann ein Video generiert, das entweder die Quellwelt bewahrt oder in einen Zielwetterzustand überführt. Um diese Herausforderungen zu bewältigen, erstellen wir zunächst HoloStateData, einen Zustands-Videodatensatz, der verschiedene Videos in einheitliche Steuerungsproben für Kamera-, Objekt- und Wetterüberwachung umwandelt. Zweitens führen wir Holo-World ein, ein einheitliches steuerbares Videoweltmodell, das die Szene ausgehend von einem einzelnen Bild gemeinsam steuert. Sein Unified Scene Adapter faktorisiert Welterhaltung und Wettertransfer in separate Parameterunterräume und nutzt gerenderten Hintergrund, Geometriepuffer und Objektsteuerungen, um die kontrollierte Szenenstruktur beizubehalten, während gleichzeitig wetterabhängige Erscheinung und Partikeleffekte modelliert werden. Darüber hinaus leitet die Scene-Weather Decomposed CFG die Szenen- und Wetterresiduen getrennt, verstärkt die Zielwettereffekte, ohne die vollständige Bedingung übermäßig zu amplifizieren. Quantitative und qualitative Experimente zeigen, dass Holo-World präzise Kamera- und Objektsteuerung mit konsistenter Szenenstruktur beibehält, während Szenen in verschiedene Zielwetterzustände überführt werden, und dabei Video-zu-Video-Wetterbearbeitungsbaselines bei der Wetterzustandserzeugung übertrifft. Unsere Projektseite ist verfügbar unter https://xiangchenyin.github.io/Holo-World/.
English
Video world models are moving toward preserving an observed world under controllable camera and object motion while allowing its environmental state to change. Yet these controls remain isolated, and weather generation typically relies on a source video or reconstructed scene that already specifies future structure. We study a first-frame-anchored source-to-state setting, where the model starts from a single image and follows explicit camera and object controls and an optional weather instruction, then generates a video that either preserves the source world or transfers it to a target weather state. To address these challenges, we first build HoloStateData, a state video dataset that turns diverse videos into unified control samples for camera, object, and weather supervision. Second, we introduce Holo-World, a unified controllable video world model that jointly controls scene from a single image. Its Unified Scene Adapter factorizes world preservation and weather transfer into distinct parameter subspaces, using rendered background, geometry buffers, and object controls to maintain controlled scene structure while modeling weather-dependent appearance and particle effects. Additionally, Scene-Weather Decomposed CFG guides scene and weather residuals separately, strengthening target weather effects without over-amplifying the full condition. Quantitative and qualitative experiments demonstrate that Holo-World maintains precise camera and object control with consistent scene structure while transferring scenes into diverse target weather state, outperforming video-to-video weather editing baselines on weather-state generation. Our project page is available at https://xiangchenyin.github.io/Holo-World/.