Lichtbasierte Videogenerierung mit Renderer-gestützter Agentenlogik

Zusammenfassung

Diffusionsmodelle haben bemerkenswerte Fortschritte in der Videogenerierung erzielt, doch ihre Steuerbarkeit bleibt eine wesentliche Einschränkung. Wichtige Szenenfaktoren wie Layout, Beleuchtung und Kameratrajektorie sind oft miteinander verflochten oder nur schwach modelliert, was ihre Anwendbarkeit in Bereichen wie Filmproduktion und virtueller Produktion einschränkt, in denen eine explizite Szenensteuerung entscheidend ist. Wir stellen LiVER vor, ein diffusionsbasiertes Framework für szenensteuerbare Videogenerierung. Um dies zu erreichen, führen wir ein neuartiges Framework ein, das die Videosynthese auf explizite 3D-Szeneneigenschaften konditioniert, unterstützt durch einen neuen umfangreichen Datensatz mit dichten Annotationen von Objektlayout, Beleuchtung und Kameraparametern. Unsere Methode entflocht diese Eigenschaften, indem Steuersignale aus einer einheitlichen 3D-Repräsentation gerendert werden. Wir schlagen ein leichtgewichtiges Konditionierungsmodul und eine progressive Trainingsstrategie vor, um diese Signale in ein fundamentales Videodiffusionsmodul zu integrieren und so eine stabile Konvergenz und hohe Bildtreue zu gewährleisten. Unser Framework ermöglicht eine Vielzahl von Anwendungen, einschließlich Bild-zu-Video- und Video-zu-Video-Synthese, bei der die zugrundeliegende 3D-Szene vollständig editierbar ist. Um die Benutzerfreundlichkeit weiter zu verbessern, entwickeln wir einen Szenen-Agenten, der hochrangige Benutzeranweisungen automatisch in die erforderlichen 3D-Steuersignale übersetzt. Experimente zeigen, dass LiVER state-of-the-art Fotorealismus und zeitliche Konsistenz erreicht und gleichzeitig eine präzise, entflochtene Steuerung über Szenenfaktoren ermöglicht, wodurch ein neuer Standard für kontrollierbare Videogenerierung gesetzt wird.

English

Diffusion models have achieved remarkable progress in video generation, but their controllability remains a major limitation. Key scene factors such as layout, lighting, and camera trajectory are often entangled or only weakly modeled, restricting their applicability in domains like filmmaking and virtual production where explicit scene control is essential. We present LiVER, a diffusion-based framework for scene-controllable video generation. To achieve this, we introduce a novel framework that conditions video synthesis on explicit 3D scene properties, supported by a new large-scale dataset with dense annotations of object layout, lighting, and camera parameters. Our method disentangles these properties by rendering control signals from a unified 3D representation. We propose a lightweight conditioning module and a progressive training strategy to integrate these signals into a foundational video diffusion model, ensuring stable convergence and high fidelity. Our framework enables a wide range of applications, including image-to-video and video-to-video synthesis where the underlying 3D scene is fully editable. To further enhance usability, we develop a scene agent that automatically translates high-level user instructions into the required 3D control signals. Experiments show that LiVER achieves state-of-the-art photorealism and temporal consistency while enabling precise, disentangled control over scene factors, setting a new standard for controllable video generation.

Lichtbasierte Videogenerierung mit Renderer-gestützter Agentenlogik

Lighting-grounded Video Generation with Renderer-based Agent Reasoning

Zusammenfassung

Support