Light-X: Renderizado Generativo de Video 4D con Control de Cámara e Iluminación
Light-X: Generative 4D Video Rendering with Camera and Illumination Control
December 4, 2025
Autores: Tianqi Liu, Zhaoxi Chen, Zihao Huang, Shaocong Xu, Saining Zhang, Chongjie Ye, Bohan Li, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu
cs.AI
Resumen
Los recientes avances en control de iluminación extienden los métodos basados en imágenes al video, aunque aún enfrentan una disyuntiva entre fidelidad lumínica y consistencia temporal. Más allá del relighting, un paso clave hacia el modelado generativo de escenas del mundo real es el control conjunto de la trayectoria de la cámara y la iluminación, ya que la dinámica visual está intrínsecamente determinada por la geometría y la iluminación. Para ello, presentamos Light-X, un marco de generación de video que permite renderizado controlable a partir de videos monoculares con control tanto de punto de vista como de iluminación. 1) Proponemos un diseño desacoplado que separa las señales de geometría e iluminación: la geometría y el movimiento se capturan mediante nubes de puntos dinámicas proyectadas a lo largo de trayectorias de cámara definidas por el usuario, mientras que las señales de iluminación las proporciona un fotograma reluciente proyectado consistentemente en la misma geometría. Estas señales explícitas y granulares permiten un desacoplamiento efectivo y guían una iluminación de alta calidad. 2) Para abordar la falta de videos multivista y multi-iluminación emparejados, introducimos Light-Syn, un pipeline basado en degradación con mapeo inverso que sintetiza pares de entrenamiento a partir de material monocular de entornos reales. Esta estrategia produce un conjunto de datos que cubre escenas estáticas, dinámicas y generadas por IA, garantizando un entrenamiento robusto. Experimentos exhaustivos demuestran que Light-X supera a los métodos baseline en control conjunto cámara-iluminación y supera a métodos previos de relighting de video tanto en configuraciones condicionadas por texto como por fondo.
English
Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.