LuxDiT: Beleuchtungsschätzung mit Video-Diffusion-Transformer
LuxDiT: Lighting Estimation with Video Diffusion Transformer
September 3, 2025
papers.authors: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
cs.AI
papers.abstract
Die Schätzung der Beleuchtung einer Szene aus einem einzelnen Bild oder Video bleibt eine langjährige Herausforderung in der Computer Vision und Grafik. Lernbasierte Ansätze sind durch die Knappheit von Ground-Truth-HDR-Umgebungsmaps eingeschränkt, die teuer zu erfassen und in ihrer Vielfalt begrenzt sind. Während neuere generative Modelle starke Prioritäten für die Bildsynthese bieten, bleibt die Beleuchtungsschätzung aufgrund ihrer Abhängigkeit von indirekten visuellen Hinweisen, der Notwendigkeit, globalen (nicht-lokalen) Kontext zu inferieren, und der Wiederherstellung von High-Dynamic-Range-Ausgaben schwierig. Wir schlagen LuxDiT vor, einen neuartigen datengetriebenen Ansatz, der einen Video-Diffusion-Transformer feinabstimmt, um HDR-Umgebungsmaps basierend auf visuellen Eingaben zu generieren. Unser Modell, das auf einem großen synthetischen Datensatz mit verschiedenen Beleuchtungsbedingungen trainiert wurde, lernt, Beleuchtung aus indirekten visuellen Hinweisen zu inferieren und generalisiert effektiv auf reale Szenen. Um die semantische Ausrichtung zwischen der Eingabe und der vorhergesagten Umgebungsmap zu verbessern, führen wir eine Feinabstimmungsstrategie mit niedrigem Rang unter Verwendung eines gesammelten Datensatzes von HDR-Panoramen ein. Unsere Methode liefert präzise Beleuchtungsvorhersagen mit realistischen hochfrequenten Winkeldetails und übertrifft bestehende state-of-the-art-Techniken sowohl in quantitativen als auch in qualitativen Bewertungen.
English
Estimating scene lighting from a single image or video remains a longstanding
challenge in computer vision and graphics. Learning-based approaches are
constrained by the scarcity of ground-truth HDR environment maps, which are
expensive to capture and limited in diversity. While recent generative models
offer strong priors for image synthesis, lighting estimation remains difficult
due to its reliance on indirect visual cues, the need to infer global
(non-local) context, and the recovery of high-dynamic-range outputs. We propose
LuxDiT, a novel data-driven approach that fine-tunes a video diffusion
transformer to generate HDR environment maps conditioned on visual input.
Trained on a large synthetic dataset with diverse lighting conditions, our
model learns to infer illumination from indirect visual cues and generalizes
effectively to real-world scenes. To improve semantic alignment between the
input and the predicted environment map, we introduce a low-rank adaptation
finetuning strategy using a collected dataset of HDR panoramas. Our method
produces accurate lighting predictions with realistic angular high-frequency
details, outperforming existing state-of-the-art techniques in both
quantitative and qualitative evaluations.