LuxDiT: Estimación de Iluminación con Transformador de Difusión de Video
LuxDiT: Lighting Estimation with Video Diffusion Transformer
September 3, 2025
Autores: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
cs.AI
Resumen
La estimación de la iluminación de una escena a partir de una sola imagen o video sigue siendo un desafío persistente en visión por computadora y gráficos. Los enfoques basados en aprendizaje están limitados por la escasez de mapas de entorno HDR de referencia, que son costosos de capturar y tienen una diversidad limitada. Aunque los modelos generativos recientes ofrecen fuertes priors para la síntesis de imágenes, la estimación de la iluminación sigue siendo difícil debido a su dependencia de indicios visuales indirectos, la necesidad de inferir contexto global (no local) y la recuperación de salidas de alto rango dinámico. Proponemos LuxDiT, un enfoque novedoso basado en datos que ajusta un transformador de difusión de video para generar mapas de entorno HDR condicionados por una entrada visual. Entrenado en un gran conjunto de datos sintéticos con diversas condiciones de iluminación, nuestro modelo aprende a inferir la iluminación a partir de indicios visuales indirectos y generaliza eficazmente a escenas del mundo real. Para mejorar la alineación semántica entre la entrada y el mapa de entorno predicho, introducimos una estrategia de ajuste fino de adaptación de bajo rango utilizando un conjunto de datos recopilado de panoramas HDR. Nuestro método produce predicciones de iluminación precisas con detalles angulares de alta frecuencia realistas, superando las técnicas existentes de vanguardia tanto en evaluaciones cuantitativas como cualitativas.
English
Estimating scene lighting from a single image or video remains a longstanding
challenge in computer vision and graphics. Learning-based approaches are
constrained by the scarcity of ground-truth HDR environment maps, which are
expensive to capture and limited in diversity. While recent generative models
offer strong priors for image synthesis, lighting estimation remains difficult
due to its reliance on indirect visual cues, the need to infer global
(non-local) context, and the recovery of high-dynamic-range outputs. We propose
LuxDiT, a novel data-driven approach that fine-tunes a video diffusion
transformer to generate HDR environment maps conditioned on visual input.
Trained on a large synthetic dataset with diverse lighting conditions, our
model learns to infer illumination from indirect visual cues and generalizes
effectively to real-world scenes. To improve semantic alignment between the
input and the predicted environment map, we introduce a low-rank adaptation
finetuning strategy using a collected dataset of HDR panoramas. Our method
produces accurate lighting predictions with realistic angular high-frequency
details, outperforming existing state-of-the-art techniques in both
quantitative and qualitative evaluations.