Het Leren van Latente Proxies voor Stuurbare Belichting met Enkele Afbeelding
Learning Latent Proxies for Controllable Single-Image Relighting
March 16, 2026
Auteurs: Haoze Zheng, Zihao Wang, Xianfeng Wu, Yajing Bai, Yexin Liu, Yun Li, Xiaogang Xu, Harry Yang
cs.AI
Samenvatting
Enkelbeeld-relichting is sterk onderbepaald: kleine belichtingsveranderingen kunnen grote, niet-lineaire variaties in schaduw, schaduwen en spiegelingen veroorzaken, terwijl geometrie en materialen niet worden waargenomen. Bestaande op diffusie gebaseerde methoden zijn ofwel afhankelijk van intrinseke of G-buffer-pipelines die dichte en kwetsbare supervisie vereisen, of opereren puur in de latente ruimte zonder fysieke onderbouwing, waardoor fijnmazige controle over richting, intensiteit en kleur onbetrouwbaar wordt. Wij observeren dat een volledige intrinseke decompositie onnodig en redundant is voor accurate relichting. In plaats daarvan zijn spaarzame maar fysiek betekenisvolle aanwijzingen, die aangeven waar belichting moet veranderen en hoe materialen moeten reageren, voldoende om een diffusiemodel te sturen. Gebaseerd op dit inzicht introduceren wij LightCtrl, dat fysieke priors op twee niveaus integreert: een few-shot latent proxy-encoder die compacte materiaal-geometrie-aanwijzingen extraheert uit beperkte PBR-supervisie, en een lichtbewuste masker dat gevoelige belichtingsregio's identificeert en de denoiser naar relevante schaduwpixels stuurt. Om schaarse PBR-data te compenseren, verfijnen we de proxy-tak met een op DPO gebaseerd doel dat fysieke consistentie in de voorspelde aanwijzingen afdwingt. Wij presenteren ook ScaLight, een grootschalige object-level dataset met systematisch gevarieerde belichting en complete camera-licht-metadata, waardoor fysiek consistente en controleerbare training mogelijk wordt. Op object- en scèneniveau benchmarks bereikt onze methode fotometrisch getrouwe relichting met accurate continue controle, en overtreft eerdere op diffusie en intrinseke methoden gebaseerde basislijnen, inclusief verbeteringen tot +2.4 dB PSNR en 35% lagere RMSE bij gecontroleerde belichtingsverschuivingen.
English
Single-image relighting is highly under-constrained: small illumination changes can produce large, nonlinear variations in shading, shadows, and specularities, while geometry and materials remain unobserved. Existing diffusion-based approaches either rely on intrinsic or G-buffer pipelines that require dense and fragile supervision, or operate purely in latent space without physical grounding, making fine-grained control of direction, intensity, and color unreliable. We observe that a full intrinsic decomposition is unnecessary and redundant for accurate relighting. Instead, sparse but physically meaningful cues, indicating where illumination should change and how materials should respond, are sufficient to guide a diffusion model. Based on this insight, we introduce LightCtrl that integrates physical priors at two levels: a few-shot latent proxy encoder that extracts compact material-geometry cues from limited PBR supervision, and a lighting-aware mask that identifies sensitive illumination regions and steers the denoiser toward shading relevant pixels. To compensate for scarce PBR data, we refine the proxy branch using a DPO-based objective that enforces physical consistency in the predicted cues. We also present ScaLight, a large-scale object-level dataset with systematically varied illumination and complete camera-light metadata, enabling physically consistent and controllable training. Across object and scene level benchmarks, our method achieves photometrically faithful relighting with accurate continuous control, surpassing prior diffusion and intrinsic-based baselines, including gains of up to +2.4 dB PSNR and 35% lower RMSE under controlled lighting shifts.