Apprentissage de proxys latents pour le rééclairage contrôlable d'une image unique

Résumé

La relighting sur image unique est un problème fortement sous-contraint : de légères modifications d'éclairage peuvent entraîner des variations non linéaires importantes dans l'ombrage, les ombres et les spécularités, tandis que la géométrie et les matériaux demeurent non observés. Les approches existantes basées sur la diffusion s'appuient soit sur des pipelines de décomposition intrinsèque ou de G-buffer qui nécessitent un suivi dense et fragile, soit opèrent uniquement dans l'espace latent sans ancrage physique, rendant le contrôle granulaire de la direction, de l'intensité et de la couleur peu fiable. Nous observons qu'une décomposition intrinsèque complète est superflue et redondante pour une relighting précise. En revanche, des indices clairsemés mais physiquement significatifs, indiquant où l'éclairage devrait changer et comment les matériaux devraient réagir, suffisent pour guider un modèle de diffusion. Forts de ce constat, nous présentons LightCtrl, qui intègre des préconnaissances physiques à deux niveaux : un encodeur proxy latent à *few-shot* qui extrait des indices compacts de matériaux-géométrie à partir d'un suivi PBR limité, et un masque sensible à l'éclairage qui identifie les régions d'illumination critiques et oriente le débruiteur vers les pixels pertinents pour l'ombrage. Pour pallier la rareté des données PBR, nous affinons la branche proxy à l'aide d'un objectif basé sur DPO qui impose une cohérence physique dans les indices prédits. Nous présentons également ScaLight, un jeu de données à grande échelle au niveau objet avec un éclairage systématiquement varié et des métadonnées complètes de caméra-éclairage, permettant un entraînement physiquement cohérent et contrôlable. Sur des benchmarks de niveau objet et scène, notre méthode atteint une relighting photométriquement fidèle avec un contrôle continu précis, surpassant les méthodes de référence antérieures basées sur la diffusion et la décomposition intrinsèque, incluant des gains allant jusqu'à +2,4 dB PSNR et une RMSE inférieure de 35 % sous des variations d'éclairage contrôlées.

English

Single-image relighting is highly under-constrained: small illumination changes can produce large, nonlinear variations in shading, shadows, and specularities, while geometry and materials remain unobserved. Existing diffusion-based approaches either rely on intrinsic or G-buffer pipelines that require dense and fragile supervision, or operate purely in latent space without physical grounding, making fine-grained control of direction, intensity, and color unreliable. We observe that a full intrinsic decomposition is unnecessary and redundant for accurate relighting. Instead, sparse but physically meaningful cues, indicating where illumination should change and how materials should respond, are sufficient to guide a diffusion model. Based on this insight, we introduce LightCtrl that integrates physical priors at two levels: a few-shot latent proxy encoder that extracts compact material-geometry cues from limited PBR supervision, and a lighting-aware mask that identifies sensitive illumination regions and steers the denoiser toward shading relevant pixels. To compensate for scarce PBR data, we refine the proxy branch using a DPO-based objective that enforces physical consistency in the predicted cues. We also present ScaLight, a large-scale object-level dataset with systematically varied illumination and complete camera-light metadata, enabling physically consistent and controllable training. Across object and scene level benchmarks, our method achieves photometrically faithful relighting with accurate continuous control, surpassing prior diffusion and intrinsic-based baselines, including gains of up to +2.4 dB PSNR and 35% lower RMSE under controlled lighting shifts.

Apprentissage de proxys latents pour le rééclairage contrôlable d'une image unique

Learning Latent Proxies for Controllable Single-Image Relighting

Résumé

Support