Light-X: Renderizado Generativo de Video 4D con Control de Cámara e Iluminación

Resumen

Los recientes avances en control de iluminación extienden los métodos basados en imágenes al video, aunque aún enfrentan una disyuntiva entre fidelidad lumínica y consistencia temporal. Más allá del relighting, un paso clave hacia el modelado generativo de escenas del mundo real es el control conjunto de la trayectoria de la cámara y la iluminación, ya que la dinámica visual está intrínsecamente determinada por la geometría y la iluminación. Para ello, presentamos Light-X, un marco de generación de video que permite renderizado controlable a partir de videos monoculares con control tanto de punto de vista como de iluminación. 1) Proponemos un diseño desacoplado que separa las señales de geometría e iluminación: la geometría y el movimiento se capturan mediante nubes de puntos dinámicas proyectadas a lo largo de trayectorias de cámara definidas por el usuario, mientras que las señales de iluminación las proporciona un fotograma reluciente proyectado consistentemente en la misma geometría. Estas señales explícitas y granulares permiten un desacoplamiento efectivo y guían una iluminación de alta calidad. 2) Para abordar la falta de videos multivista y multi-iluminación emparejados, introducimos Light-Syn, un pipeline basado en degradación con mapeo inverso que sintetiza pares de entrenamiento a partir de material monocular de entornos reales. Esta estrategia produce un conjunto de datos que cubre escenas estáticas, dinámicas y generadas por IA, garantizando un entrenamiento robusto. Experimentos exhaustivos demuestran que Light-X supera a los métodos baseline en control conjunto cámara-iluminación y supera a métodos previos de relighting de video tanto en configuraciones condicionadas por texto como por fondo.

English

Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.

Light-X: Renderizado Generativo de Video 4D con Control de Cámara e Iluminación

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

Resumen

Support