Apprendimento di Proxy Latenti per l'Illuminazione Controllabile da Singola Immagine

Abstract

La riluminazione da singola immagine è un problema fortemente sottodeterminato: piccole variazioni nell'illuminazione possono produrre ampie variazioni non lineari nell'ombreggiatura, nelle ombre e nelle componenti speculari, mentre la geometria e i materiali rimangono non osservati. Gli approcci esistenti basati su modelli di diffusione si basano su pipeline intrinseche o di G-buffer che richiedono supervisione densa e fragile, oppure operano puramente nello spazio latente senza ancoraggio fisico, rendendo inaffidabile il controllo granulare di direzione, intensità e colore. Osserviamo che una completa scomposizione intrinseca non è necessaria ed è ridondante per una riluminazione accurata. Al contrario, suggerimenti sparsi ma fisicamente significativi, che indicano dove l'illuminazione dovrebbe cambiare e come i materiali dovrebbero rispondere, sono sufficienti per guidare un modello di diffusione. Basandoci su questa intuizione, introduciamo LightCtrl, che integra prior fisici a due livelli: un encoder proxy latente few-shot che estrae suggerimenti compatti di materiale-geometria da una supervisione PBR limitata, e una maschera lighting-aware che identifica le regioni di illuminazione sensibili e indirizza il denoiser verso i pixel rilevanti per l'ombreggiatura. Per compensare la scarsità di dati PBR, affiniamo il ramo proxy utilizzando un obiettivo basato su DPO che impone consistenza fisica nei suggerimenti predetti. Presentiamo anche ScaLight, un dataset su larga scala a livello di oggetto con illuminazione variata sistematicamente e metadati completi di camera-luce, che abilita un addestramento fisicamente consistente e controllabile. Su benchmark a livello di oggetto e di scena, il nostro metodo raggiunge una riluminazione fotometricamente fedele con un controllo continuo accurato, superando le baseline precedenti basate su diffusione e metodi intrinseci, inclusi miglioramenti fino a +2.4 dB PSNR e un RMSE inferiore del 35% sotto spostamenti controllati dell'illuminazione.

English

Single-image relighting is highly under-constrained: small illumination changes can produce large, nonlinear variations in shading, shadows, and specularities, while geometry and materials remain unobserved. Existing diffusion-based approaches either rely on intrinsic or G-buffer pipelines that require dense and fragile supervision, or operate purely in latent space without physical grounding, making fine-grained control of direction, intensity, and color unreliable. We observe that a full intrinsic decomposition is unnecessary and redundant for accurate relighting. Instead, sparse but physically meaningful cues, indicating where illumination should change and how materials should respond, are sufficient to guide a diffusion model. Based on this insight, we introduce LightCtrl that integrates physical priors at two levels: a few-shot latent proxy encoder that extracts compact material-geometry cues from limited PBR supervision, and a lighting-aware mask that identifies sensitive illumination regions and steers the denoiser toward shading relevant pixels. To compensate for scarce PBR data, we refine the proxy branch using a DPO-based objective that enforces physical consistency in the predicted cues. We also present ScaLight, a large-scale object-level dataset with systematically varied illumination and complete camera-light metadata, enabling physically consistent and controllable training. Across object and scene level benchmarks, our method achieves photometrically faithful relighting with accurate continuous control, surpassing prior diffusion and intrinsic-based baselines, including gains of up to +2.4 dB PSNR and 35% lower RMSE under controlled lighting shifts.

Apprendimento di Proxy Latenti per l'Illuminazione Controllabile da Singola Immagine

Learning Latent Proxies for Controllable Single-Image Relighting

Abstract

Support