Light-X: Generatief 4D-videorendering met camera- en belichtingscontrole

Samenvatting

Recente vooruitgang in belichtingscontrole breidt op afbeeldingen gebaseerde methoden uit naar video, maar kampt nog steeds met een afweging tussen belichtingsgetrouwheid en temporele consistentie. Een essentiële stap voorbij herbelichting, richting generatieve modellering van real-world scènes, is de gezamenlijke aansturing van cameratrajecorie en belichting, omdat visuele dynamiek inherent wordt gevormd door zowel geometrie als belichting. Hiertoe presenteren we Light-X, een videogeneratieraamwerk dat configureerbare rendering vanuit monocular video's mogelijk maakt, met controle over zowel camerastandpunt als belichting. 1) We stellen een ontvlochten ontwerp voor dat geometrie- en belichtingssignalen ontkoppelt: geometrie en beweging worden vastgelegd via dynamische point clouds geprojecteerd langs door de gebruiker gedefinieerde cameratrajecorieën, terwijl belichtingsaanwijzingen worden geleverd door een herbelichte frame die consistent in dezelfde geometrie wordt geprojecteerd. Deze expliciete, fijnmazige aanwijzingen maken effectieve ontvlechting mogelijk en sturen hoogwaardige belichting aan. 2) Om het gebrek aan gepaarde multi-view en multi-belichtingsvideo's aan te pakken, introduceren we Light-Syn, een op degradatie gebaseerde pijplijn met inverse mapping die trainingsparen synthetiseert uit monocular beelden uit de praktijk. Deze strategie resulteert in een dataset die statische, dynamische en AI-gegenereerde scènes omvat, wat een robuuste training waarborgt. Uitgebreide experimenten tonen aan dat Light-X baseline-methoden overtreft in gezamenlijke camera-belichtingscontrole en eerdere videoherbelichtingsmethoden overstijgt onder zowel tekst- als achtergrondgeconditioneerde instellingen.

English

Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.

Light-X: Generatief 4D-videorendering met camera- en belichtingscontrole

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

Samenvatting

Support