Aprendizaje de Proxies Latentes para Reiluminación Controlable de Imagen Única

Resumen

La reluminación a partir de una sola imagen está altamente sub-restringida: pequeños cambios en la iluminación pueden producir variaciones no lineales y significativas en el sombreado, las sombras y las reflexiones especulares, mientras que la geometría y los materiales permanecen sin observar. Los enfoques existentes basados en difusión dependen de canalizaciones de descomposición intrínseca o *G-buffers* que requieren una supervisión densa y frágil, o operan únicamente en el espacio latente sin fundamento físico, lo que hace que el control detallado de la dirección, intensidad y color sea poco fiable. Observamos que una descomposición intrínseca completa es innecesaria y redundante para una reluminación precisa. En su lugar, son suficientes pistas escasas pero físicamente significativas, que indiquen dónde debe cambiar la iluminación y cómo deben responder los materiales, para guiar un modelo de difusión. Basándonos en esta idea, presentamos LightCtrl, que integra *priors* físicos en dos niveles: un codificador *proxy* latente de *few-shot* que extrae pistas compactas de material-geometría a partir de una supervisión limitada con PBR (*Physically Based Rendering*), y una máscara consciente de la iluminación que identifica regiones sensibles a la iluminación y dirige el desruidor hacia los píxeles relevantes para el sombreado. Para compensar la escasez de datos PBR, refinamos la rama *proxy* utilizando un objetivo basado en DPO (*Direct Preference Optimization*) que impone consistencia física en las pistas pronosticadas. También presentamos ScaLight, un conjunto de datos a gran escala a nivel de objeto con iluminación variada sistemáticamente y metadatos completos de cámara-luz, que permite un entrenamiento físicamente consistente y controlable. En diversos benchmarks a nivel de objeto y escena, nuestro método logra una reluminación fotométricamente fiel con un control continuo preciso, superando a los métodos de referencia previos basados en difusión y descomposición intrínseca, incluyendo mejoras de hasta +2.4 dB en PSNR y un 35% menos de RMSE bajo cambios de iluminación controlados.

English

Single-image relighting is highly under-constrained: small illumination changes can produce large, nonlinear variations in shading, shadows, and specularities, while geometry and materials remain unobserved. Existing diffusion-based approaches either rely on intrinsic or G-buffer pipelines that require dense and fragile supervision, or operate purely in latent space without physical grounding, making fine-grained control of direction, intensity, and color unreliable. We observe that a full intrinsic decomposition is unnecessary and redundant for accurate relighting. Instead, sparse but physically meaningful cues, indicating where illumination should change and how materials should respond, are sufficient to guide a diffusion model. Based on this insight, we introduce LightCtrl that integrates physical priors at two levels: a few-shot latent proxy encoder that extracts compact material-geometry cues from limited PBR supervision, and a lighting-aware mask that identifies sensitive illumination regions and steers the denoiser toward shading relevant pixels. To compensate for scarce PBR data, we refine the proxy branch using a DPO-based objective that enforces physical consistency in the predicted cues. We also present ScaLight, a large-scale object-level dataset with systematically varied illumination and complete camera-light metadata, enabling physically consistent and controllable training. Across object and scene level benchmarks, our method achieves photometrically faithful relighting with accurate continuous control, surpassing prior diffusion and intrinsic-based baselines, including gains of up to +2.4 dB PSNR and 35% lower RMSE under controlled lighting shifts.

Aprendizaje de Proxies Latentes para Reiluminación Controlable de Imagen Única

Learning Latent Proxies for Controllable Single-Image Relighting

Resumen

Support