Verlichtingsgebaseerde Videogeneratie met Renderer-gebaseerde Agent Redenering

Samenvatting

Diffusiemodellen hebben opmerkelijke vooruitgang geboekt in videogeneratie, maar hun bestuurbaarheid blijft een grote beperking. Belangrijke scenefactoren zoals opstelling, belichting en cameratraject zijn vaak verweven of slechts zwak gemodelleerd, wat hun toepasbaarheid beperkt in domeinen zoals filmproductie en virtual production waar expliciete scènecontrole essentieel is. Wij presenteren LiVER, een op diffusie gebaseerd raamwerk voor scene-bestuurbare videogeneratie. Hiertoe introduceren we een nieuw raamwerk dat videosynthese conditioneert op expliciete 3D-scène-eigenschappen, ondersteund door een nieuwe grootschalige dataset met dichte annotaties van objectopstelling, belichting en cameraparameters. Onze methode ontwart deze eigenschappen door besturingssignalen te renderen vanuit een uniforme 3D-representatie. We stellen een lichtgewicht conditioneringsmodule en een progressieve trainingsstrategie voor om deze signalen te integreren in een fundamenteel videodiffusiemodel, waarbij stabiele convergentie en hoge kwaliteit worden gegarandeerd. Ons raamwerk maakt een breed scala aan toepassingen mogelijk, inclusief beeld-naar-video en video-naar-video synthese waarbij de onderliggende 3D-scène volledig bewerkbaar is. Om de bruikbaarheid verder te verbeteren, ontwikkelen we een scene-agent die hoogwaardige gebruikersinstructies automatisch vertaalt naar de vereiste 3D-besturingssignalen. Experimenten tonen aan dat LiVER state-of-the-art fotorealisme en temporele consistentie bereikt, terwijl het precieze, ontwarde controle over scenefactoren mogelijk maakt, waarmee het een nieuwe standaard zet voor bestuurbare videogeneratie.

English

Diffusion models have achieved remarkable progress in video generation, but their controllability remains a major limitation. Key scene factors such as layout, lighting, and camera trajectory are often entangled or only weakly modeled, restricting their applicability in domains like filmmaking and virtual production where explicit scene control is essential. We present LiVER, a diffusion-based framework for scene-controllable video generation. To achieve this, we introduce a novel framework that conditions video synthesis on explicit 3D scene properties, supported by a new large-scale dataset with dense annotations of object layout, lighting, and camera parameters. Our method disentangles these properties by rendering control signals from a unified 3D representation. We propose a lightweight conditioning module and a progressive training strategy to integrate these signals into a foundational video diffusion model, ensuring stable convergence and high fidelity. Our framework enables a wide range of applications, including image-to-video and video-to-video synthesis where the underlying 3D scene is fully editable. To further enhance usability, we develop a scene agent that automatically translates high-level user instructions into the required 3D control signals. Experiments show that LiVER achieves state-of-the-art photorealism and temporal consistency while enabling precise, disentangled control over scene factors, setting a new standard for controllable video generation.

Verlichtingsgebaseerde Videogeneratie met Renderer-gebaseerde Agent Redenering

Lighting-grounded Video Generation with Renderer-based Agent Reasoning

Samenvatting

Support