Light-X: Rendering Video 4D Generativo con Controllo della Fotocamera e dell'Illuminazione

Abstract

I recenti progressi nel controllo dell'illuminazione estendono i metodi basati su immagini al video, ma devono comunque affrontare un compromesso tra fedeltà illuminotecnica e coerenza temporale. Andando oltre il re-illuminamento, un passo cruciale verso la modellazione generativa di scene del mondo reale è il controllo congiunto della traiettoria della telecamera e dell'illuminazione, poiché la dinamica visiva è intrinsecamente plasmata sia dalla geometria che dall'illuminazione. A tal fine, presentiamo Light-X, un framework per la generazione video che consente il rendering controllabile da video monoculari con controllo sia del punto di vista che dell'illuminazione. 1) Proponiamo una progettazione disaccoppiata che separa i segnali di geometria e illuminazione: la geometria e il movimento sono catturati tramite nuvole di punti dinamiche proiettate lungo traiettorie di telecamera definite dall'utente, mentre gli indizi di illuminazione sono forniti da un fotogramma re-illuminato proiettato in modo coerente nella stessa geometria. Questi indizi espliciti e granulari permettono un efficace disaccoppiamento e guidano un'illuminazione di alta qualità. 2) Per ovviare alla mancanza di video multiview e multi-illuminazione accoppiati, introduciamo Light-Syn, una pipeline basata sulla degradazione con mappatura inversa che sintetizza coppie di addestramento da filmati monoculari in-the-wild. Questa strategia produce un dataset che copre scene statiche, dinamiche e generate da IA, garantendo un addestramento robusto. Esperimenti estensivi mostrano che Light-X supera i metodi baseline nel controllo congiunto telecamera-illuminazione e supera i precedenti metodi di re-illuminazione video sia in contesti condizionati da testo che da sfondo.

English

Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.

Light-X: Rendering Video 4D Generativo con Controllo della Fotocamera e dell'Illuminazione

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

Abstract

Support