LuxDiT : Estimation de l'éclairage avec un transformeur de diffusion vidéo
LuxDiT: Lighting Estimation with Video Diffusion Transformer
September 3, 2025
papers.authors: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
cs.AI
papers.abstract
L'estimation de l'éclairage d'une scène à partir d'une seule image ou vidéo demeure un défi de longue date en vision par ordinateur et en infographie. Les approches basées sur l'apprentissage sont limitées par la rareté des cartes d'environnement HDR de référence, qui sont coûteuses à capturer et peu diversifiées. Bien que les modèles génératifs récents offrent des a priori solides pour la synthèse d'images, l'estimation de l'éclairage reste difficile en raison de sa dépendance à des indices visuels indirects, de la nécessité d'inférer un contexte global (non local) et de la récupération de sorties à haute plage dynamique. Nous proposons LuxDiT, une nouvelle approche basée sur les données qui affine un transformateur de diffusion vidéo pour générer des cartes d'environnement HDR conditionnées par une entrée visuelle. Entraîné sur un vaste ensemble de données synthétiques avec des conditions d'éclairage variées, notre modèle apprend à déduire l'illumination à partir d'indices visuels indirects et généralise efficacement aux scènes réelles. Pour améliorer l'alignement sémantique entre l'entrée et la carte d'environnement prédite, nous introduisons une stratégie de réglage fin par adaptation de bas rang utilisant un ensemble de données collectées de panoramas HDR. Notre méthode produit des prédictions d'éclairage précises avec des détails angulaires haute fréquence réalistes, surpassant les techniques existantes de pointe dans les évaluations quantitatives et qualitatives.
English
Estimating scene lighting from a single image or video remains a longstanding
challenge in computer vision and graphics. Learning-based approaches are
constrained by the scarcity of ground-truth HDR environment maps, which are
expensive to capture and limited in diversity. While recent generative models
offer strong priors for image synthesis, lighting estimation remains difficult
due to its reliance on indirect visual cues, the need to infer global
(non-local) context, and the recovery of high-dynamic-range outputs. We propose
LuxDiT, a novel data-driven approach that fine-tunes a video diffusion
transformer to generate HDR environment maps conditioned on visual input.
Trained on a large synthetic dataset with diverse lighting conditions, our
model learns to infer illumination from indirect visual cues and generalizes
effectively to real-world scenes. To improve semantic alignment between the
input and the predicted environment map, we introduce a low-rank adaptation
finetuning strategy using a collected dataset of HDR panoramas. Our method
produces accurate lighting predictions with realistic angular high-frequency
details, outperforming existing state-of-the-art techniques in both
quantitative and qualitative evaluations.