Generación de Video Fundamentada en Iluminación con Razonamiento de Agentes Basados en Renderizadores

Resumen

Los modelos de difusión han logrado avances notables en la generación de vídeo, pero su controlabilidad sigue siendo una limitación importante. Factores clave de la escena como el diseño, la iluminación y la trayectoria de la cámara a menudo están entrelazados o solo débilmente modelados, lo que restringe su aplicabilidad en dominios como la cinematografía y la producción virtual donde el control explícito de la escena es esencial. Presentamos LiVER, un marco basado en difusión para la generación de vídeo con control de escena. Para lograrlo, introducimos un marco novedoso que condiciona la síntesis de vídeo a propiedades explícitas de escena 3D, respaldado por un nuevo conjunto de datos a gran escala con anotaciones densas de diseño de objetos, iluminación y parámetros de cámara. Nuestro método desentrelaza estas propiedades renderizando señales de control a partir de una representación 3D unificada. Proponemos un módulo de condicionamiento ligero y una estrategia de entrenamiento progresivo para integrar estas señales en un modelo de difusión de vídeo fundamental, garantizando una convergencia estable y una alta fidelidad. Nuestro marco permite una amplia gama de aplicaciones, incluyendo la síntesis de imagen a vídeo y de vídeo a vídeo donde la escena 3D subyacente es completamente editable. Para mejorar aún más la usabilidad, desarrollamos un agente de escena que traduce automáticamente las instrucciones de alto nivel del usuario en las señales de control 3D requeridas. Los experimentos demuestran que LiVER logra un fotorrealismo y una consistencia temporal de vanguardia, al tiempo que permite un control preciso y desentrelazado sobre los factores de la escena, estableciendo un nuevo estándar para la generación de vídeo controlable.

English

Diffusion models have achieved remarkable progress in video generation, but their controllability remains a major limitation. Key scene factors such as layout, lighting, and camera trajectory are often entangled or only weakly modeled, restricting their applicability in domains like filmmaking and virtual production where explicit scene control is essential. We present LiVER, a diffusion-based framework for scene-controllable video generation. To achieve this, we introduce a novel framework that conditions video synthesis on explicit 3D scene properties, supported by a new large-scale dataset with dense annotations of object layout, lighting, and camera parameters. Our method disentangles these properties by rendering control signals from a unified 3D representation. We propose a lightweight conditioning module and a progressive training strategy to integrate these signals into a foundational video diffusion model, ensuring stable convergence and high fidelity. Our framework enables a wide range of applications, including image-to-video and video-to-video synthesis where the underlying 3D scene is fully editable. To further enhance usability, we develop a scene agent that automatically translates high-level user instructions into the required 3D control signals. Experiments show that LiVER achieves state-of-the-art photorealism and temporal consistency while enabling precise, disentangled control over scene factors, setting a new standard for controllable video generation.

Generación de Video Fundamentada en Iluminación con Razonamiento de Agentes Basados en Renderizadores

Lighting-grounded Video Generation with Renderer-based Agent Reasoning

Resumen

Support