LuxDiT: Stima dell'Illuminazione con Video Diffusion Transformer
LuxDiT: Lighting Estimation with Video Diffusion Transformer
September 3, 2025
Autori: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
cs.AI
Abstract
La stima dell'illuminazione di una scena a partire da una singola immagine o video rimane una sfida di lunga data nel campo della visione artificiale e della grafica. Gli approcci basati sull'apprendimento sono limitati dalla scarsità di mappe HDR dell'ambiente con verità di riferimento, che sono costose da acquisire e limitate in termini di diversità. Sebbene i recenti modelli generativi offrano forti prior per la sintesi di immagini, la stima dell'illuminazione rimane difficile a causa della sua dipendenza da indizi visivi indiretti, della necessità di inferire un contesto globale (non locale) e del recupero di output ad alto intervallo dinamico. Proponiamo LuxDiT, un approccio innovativo basato sui dati che perfeziona un trasformatore di diffusione video per generare mappe HDR dell'ambiente condizionate dall'input visivo. Addestrato su un ampio dataset sintetico con condizioni di illuminazione diverse, il nostro modello impara a inferire l'illuminazione da indizi visivi indiretti e si generalizza efficacemente a scene del mondo reale. Per migliorare l'allineamento semantico tra l'input e la mappa dell'ambiente prevista, introduciamo una strategia di perfezionamento adattivo a basso rango utilizzando un dataset raccolto di panorami HDR. Il nostro metodo produce previsioni accurate dell'illuminazione con dettagli angolari ad alta frequenza realistici, superando le tecniche esistenti all'avanguardia sia nelle valutazioni quantitative che qualitative.
English
Estimating scene lighting from a single image or video remains a longstanding
challenge in computer vision and graphics. Learning-based approaches are
constrained by the scarcity of ground-truth HDR environment maps, which are
expensive to capture and limited in diversity. While recent generative models
offer strong priors for image synthesis, lighting estimation remains difficult
due to its reliance on indirect visual cues, the need to infer global
(non-local) context, and the recovery of high-dynamic-range outputs. We propose
LuxDiT, a novel data-driven approach that fine-tunes a video diffusion
transformer to generate HDR environment maps conditioned on visual input.
Trained on a large synthetic dataset with diverse lighting conditions, our
model learns to infer illumination from indirect visual cues and generalizes
effectively to real-world scenes. To improve semantic alignment between the
input and the predicted environment map, we introduce a low-rank adaptation
finetuning strategy using a collected dataset of HDR panoramas. Our method
produces accurate lighting predictions with realistic angular high-frequency
details, outperforming existing state-of-the-art techniques in both
quantitative and qualitative evaluations.