LuxDiT: Lichtschatting met Video Diffusion Transformer
LuxDiT: Lighting Estimation with Video Diffusion Transformer
September 3, 2025
Auteurs: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
cs.AI
Samenvatting
Het schatten van scèneverlichting vanuit een enkele afbeelding of video blijft een langdurige uitdaging in computervisie en grafische toepassingen. Op leren gebaseerde benaderingen worden beperkt door de schaarste aan grondwaarheid HDR-omgevingskaarten, die duur zijn om vast te leggen en beperkt in diversiteit. Hoewel recente generatieve modellen sterke aannames bieden voor beeld-synthese, blijft verlichtingsschatting moeilijk vanwege de afhankelijkheid van indirecte visuele aanwijzingen, de noodzaak om globale (niet-lokale) context af te leiden, en het herstel van hoog-dynamisch-bereik uitvoer. Wij stellen LuxDiT voor, een nieuwe data-gedreven aanpak die een video-diffusie-transformer fine-tunt om HDR-omgevingskaarten te genereren, geconditioneerd op visuele invoer. Getraind op een grote synthetische dataset met diverse verlichtingsomstandigheden, leert ons model verlichting af te leiden uit indirecte visuele aanwijzingen en generaliseert effectief naar real-world scènes. Om de semantische afstemming tussen de invoer en de voorspelde omgevingskaart te verbeteren, introduceren we een fine-tuningstrategie met lage rangaanpassing, gebruikmakend van een verzamelde dataset van HDR-panorama's. Onze methode produceert nauwkeurige verlichtingsvoorspellingen met realistische hoek-hoge-frequentie details, en overtreft bestaande state-of-the-art technieken in zowel kwantitatieve als kwalitatieve evaluaties.
English
Estimating scene lighting from a single image or video remains a longstanding
challenge in computer vision and graphics. Learning-based approaches are
constrained by the scarcity of ground-truth HDR environment maps, which are
expensive to capture and limited in diversity. While recent generative models
offer strong priors for image synthesis, lighting estimation remains difficult
due to its reliance on indirect visual cues, the need to infer global
(non-local) context, and the recovery of high-dynamic-range outputs. We propose
LuxDiT, a novel data-driven approach that fine-tunes a video diffusion
transformer to generate HDR environment maps conditioned on visual input.
Trained on a large synthetic dataset with diverse lighting conditions, our
model learns to infer illumination from indirect visual cues and generalizes
effectively to real-world scenes. To improve semantic alignment between the
input and the predicted environment map, we introduce a low-rank adaptation
finetuning strategy using a collected dataset of HDR panoramas. Our method
produces accurate lighting predictions with realistic angular high-frequency
details, outperforming existing state-of-the-art techniques in both
quantitative and qualitative evaluations.