Light-X: Generatives 4D-Video-Rendering mit Kamera- und Beleuchtungskontrolle

Zusammenfassung

Jüngste Fortschritte in der Beleuchtungskontrolle erweitern bildbasierte Methoden auf Videos, stehen jedoch nach wie vor vor einem Zielkonflikt zwischen Beleuchtungstreue und zeitlicher Konsistenz. Ein entscheidender Schritt über die Neubeleuchtung hinaus hin zur generativen Modellierung realer Szenen ist die gemeinsame Steuerung von Kameratrajektorie und Beleuchtung, da visuelle Dynamiken inhärent sowohl durch Geometrie als auch durch Beleuchtung geprägt werden. Zu diesem Zweck stellen wir Light-X vor, ein Videogenerierungsframework, das kontrollierbares Rendering aus monokularen Videos mit sowohl Blickwinkel- als auch Beleuchtungskontrolle ermöglicht. 1) Wir schlagen ein entflochtenes Design vor, das Geometrie- und Beleuchtungssignale entkoppelt: Geometrie und Bewegung werden über dynamische Punktwolken erfasst, die entlang benutzerdefinierter Kameratrajektorien projiziert werden, während Beleuchtungsinformationen durch einen neu beleuchteten Einzelbild bereitgestellt werden, der konsistent in dieselbe Geometrie projiziert wird. Diese expliziten, feinkörnigen Hinweise ermöglichen eine effektive Entflechtung und führen zu hochwertiger Beleuchtung. 2) Um den Mangel an gepaarten Videos mit multiplen Ansichten und Beleuchtungen zu adressieren, führen wir Light-Syn ein, eine auf Degradation basierende Pipeline mit inverser Abbildung, die Trainingspaare aus monokularem Footage aus unkontrollierten Umgebungen synthetisiert. Diese Strategie erzeugt einen Datensatz, der statische, dynamische und KI-generierte Szenen abdeckt und robustes Training gewährleistet. Umfangreiche Experimente zeigen, dass Light-X Baseline-Methoden in der gemeinsamen Kamera-Beleuchtungs-Steuerung übertrifft und frühere Video-Neubeleuchtungsmethoden unter text- und hintergrundbedingten Einstellungen überlegen ist.

English

Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.

Light-X: Generatives 4D-Video-Rendering mit Kamera- und Beleuchtungskontrolle

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

Zusammenfassung

Support