Aprendendo Proxies Latentes para Reiluminação Controlável de Imagem Única
Learning Latent Proxies for Controllable Single-Image Relighting
March 16, 2026
Autores: Haoze Zheng, Zihao Wang, Xianfeng Wu, Yajing Bai, Yexin Liu, Yun Li, Xiaogang Xu, Harry Yang
cs.AI
Resumo
A reluminação a partir de uma única imagem é altamente subdeterminada: pequenas alterações na iluminação podem produzir variações não lineares significativas em sombreamento, sombras e brilhos especulares, enquanto a geometria e os materiais permanecem não observados. As abordagens existentes baseadas em difusão ou dependem de *pipelines* intrínsecos ou de *G-buffers* que exigem supervisão densa e frágil, ou operam puramente no espaço latente sem fundamentação física, tornando o controle refinado de direção, intensidade e cor não confiável. Observamos que uma decomposição intrínseca completa é desnecessária e redundante para uma reluminação precisa. Em vez disso, pistas esparsas, mas fisicamente significativas, que indicam onde a iluminação deve mudar e como os materiais devem responder, são suficientes para orientar um modelo de difusão. Com base nessa percepção, introduzimos o LightCtrl, que integra *priors* físicos em dois níveis: um codificador *proxy* latente de *few-shot* que extrai pistas compactas de material-geometria a partir de supervisão limitada por PBR (*Physically Based Rendering*), e uma máscara consciente da iluminação que identifica regiões sensíveis à iluminação e direciona o desruidor para os *pixels* relevantes de sombreamento. Para compensar a escassez de dados PBR, refinamos o ramo *proxy* usando um objetivo baseado em DPO (*Direct Preference Optimization*) que impõe consistência física nas pistas previstas. Também apresentamos o ScaLight, um conjunto de dados em larga escala em nível de objeto com iluminação variada sistematicamente e metadados completos de câmera-luz, permitindo um treinamento fisicamente consistente e controlável. Em *benchmarks* de nível de objeto e cena, nosso método alcança uma reluminação fotometricamente fiel com controle contínuo preciso, superando as linhas de base anteriores baseadas em difusão e métodos intrínsecos, incluindo ganhos de até +2.4 dB de PSNR e 35% menor RMSE sob mudanças de iluminação controladas.
English
Single-image relighting is highly under-constrained: small illumination changes can produce large, nonlinear variations in shading, shadows, and specularities, while geometry and materials remain unobserved. Existing diffusion-based approaches either rely on intrinsic or G-buffer pipelines that require dense and fragile supervision, or operate purely in latent space without physical grounding, making fine-grained control of direction, intensity, and color unreliable. We observe that a full intrinsic decomposition is unnecessary and redundant for accurate relighting. Instead, sparse but physically meaningful cues, indicating where illumination should change and how materials should respond, are sufficient to guide a diffusion model. Based on this insight, we introduce LightCtrl that integrates physical priors at two levels: a few-shot latent proxy encoder that extracts compact material-geometry cues from limited PBR supervision, and a lighting-aware mask that identifies sensitive illumination regions and steers the denoiser toward shading relevant pixels. To compensate for scarce PBR data, we refine the proxy branch using a DPO-based objective that enforces physical consistency in the predicted cues. We also present ScaLight, a large-scale object-level dataset with systematically varied illumination and complete camera-light metadata, enabling physically consistent and controllable training. Across object and scene level benchmarks, our method achieves photometrically faithful relighting with accurate continuous control, surpassing prior diffusion and intrinsic-based baselines, including gains of up to +2.4 dB PSNR and 35% lower RMSE under controlled lighting shifts.