LuxDiT: Estimativa de Iluminação com Transformador de Difusão de Vídeo
LuxDiT: Lighting Estimation with Video Diffusion Transformer
September 3, 2025
Autores: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
cs.AI
Resumo
A estimativa da iluminação de uma cena a partir de uma única imagem ou vídeo continua sendo um desafio antigo na visão computacional e gráficos. As abordagens baseadas em aprendizado são limitadas pela escassez de mapas de ambiente HDR de referência, que são caros de capturar e possuem diversidade limitada. Embora modelos generativos recentes ofereçam fortes priors para síntese de imagens, a estimativa de iluminação permanece difícil devido à sua dependência de pistas visuais indiretas, à necessidade de inferir contexto global (não local) e à recuperação de saídas de alta faixa dinâmica. Propomos o LuxDiT, uma abordagem orientada por dados que ajusta um transformador de difusão de vídeo para gerar mapas de ambiente HDR condicionados à entrada visual. Treinado em um grande conjunto de dados sintéticos com diversas condições de iluminação, nosso modelo aprende a inferir iluminação a partir de pistas visuais indiretas e generaliza efetivamente para cenas do mundo real. Para melhorar o alinhamento semântico entre a entrada e o mapa de ambiente previsto, introduzimos uma estratégia de ajuste fino de adaptação de baixo posto usando um conjunto de dados coletado de panoramas HDR. Nosso método produz previsões de iluminação precisas com detalhes angulares de alta frequência realistas, superando as técnicas state-of-the-art existentes em avaliações quantitativas e qualitativas.
English
Estimating scene lighting from a single image or video remains a longstanding
challenge in computer vision and graphics. Learning-based approaches are
constrained by the scarcity of ground-truth HDR environment maps, which are
expensive to capture and limited in diversity. While recent generative models
offer strong priors for image synthesis, lighting estimation remains difficult
due to its reliance on indirect visual cues, the need to infer global
(non-local) context, and the recovery of high-dynamic-range outputs. We propose
LuxDiT, a novel data-driven approach that fine-tunes a video diffusion
transformer to generate HDR environment maps conditioned on visual input.
Trained on a large synthetic dataset with diverse lighting conditions, our
model learns to infer illumination from indirect visual cues and generalizes
effectively to real-world scenes. To improve semantic alignment between the
input and the predicted environment map, we introduce a low-rank adaptation
finetuning strategy using a collected dataset of HDR panoramas. Our method
produces accurate lighting predictions with realistic angular high-frequency
details, outperforming existing state-of-the-art techniques in both
quantitative and qualitative evaluations.