Lernen latenter Stellvertreter für kontrollierbare Einzelbild-Neubeleuchtung

Zusammenfassung

Einzelbildbeleuchtung ist hochgradig unterbestimmt: Kleine Beleuchtungsänderungen können große, nichtlineare Variationen in Schattierung, Schatten und Spiegelungen verursachen, während Geometrie und Materialien unbeobachtet bleiben. Bestehende diffusionsbasierte Ansätze verlassen sich entweder auf Intrinsic- oder G-Buffer-Pipelines, die dichte und anfällige Supervision erfordern, oder operieren rein im latenten Raum ohne physikalische Grundlage, was eine feinkörnige Steuerung von Richtung, Intensität und Farbe unzuverlässig macht. Wir beobachten, dass eine vollständige Intrinsic-Zerlegung für präzise Neubeleuchtung unnötig und redundant ist. Stattdessen sind sparsame, aber physikalisch aussagekräftige Hinweise, die anzeigen, wo sich die Beleuchtung ändern soll und wie Materialien reagieren sollten, ausreichend, um ein Diffusionsmodell zu führen. Basierend auf dieser Erkenntnis führen wir LightCtrl ein, das physikalische Priori auf zwei Ebenen integriert: einen Few-Shot-latenten Proxy-Encoder, der kompakte Material-Geometrie-Hinweise aus begrenzter PBR-Supervision extrahiert, und eine beleuchtungssensitive Maske, die empfindliche Beleuchtungsregionen identifiziert und den Denoiser zu schattierungsrelevanten Pixeln lenkt. Um knappe PBR-Daten auszugleichen, verfeinern wir den Proxy-Zweig mit einem DPO-basierten Ziel, das physikalische Konsistenz in den vorhergesagten Hinweisen erzwingt. Wir stellen außerdem ScaLight vor, einen großflächigen Objektdatensatz mit systematisch variierter Beleuchtung und vollständigen Kamera-Licht-Metadaten, der physikalisch konsistentes und kontrollierbares Training ermöglicht. In Objekt- und Szenenbenchmarks erreicht unsere Methode photometrisch präzise Neubeleuchtung mit akkurater kontinuierlicher Steuerung und übertrifft bisherige Diffusions- und Intrinsic-basierte Baseline-Methoden, einschließlich Steigerungen von bis zu +2,4 dB PSNR und 35 % niedrigerem RMSE bei kontrollierten Beleuchtungsänderungen.

English

Single-image relighting is highly under-constrained: small illumination changes can produce large, nonlinear variations in shading, shadows, and specularities, while geometry and materials remain unobserved. Existing diffusion-based approaches either rely on intrinsic or G-buffer pipelines that require dense and fragile supervision, or operate purely in latent space without physical grounding, making fine-grained control of direction, intensity, and color unreliable. We observe that a full intrinsic decomposition is unnecessary and redundant for accurate relighting. Instead, sparse but physically meaningful cues, indicating where illumination should change and how materials should respond, are sufficient to guide a diffusion model. Based on this insight, we introduce LightCtrl that integrates physical priors at two levels: a few-shot latent proxy encoder that extracts compact material-geometry cues from limited PBR supervision, and a lighting-aware mask that identifies sensitive illumination regions and steers the denoiser toward shading relevant pixels. To compensate for scarce PBR data, we refine the proxy branch using a DPO-based objective that enforces physical consistency in the predicted cues. We also present ScaLight, a large-scale object-level dataset with systematically varied illumination and complete camera-light metadata, enabling physically consistent and controllable training. Across object and scene level benchmarks, our method achieves photometrically faithful relighting with accurate continuous control, surpassing prior diffusion and intrinsic-based baselines, including gains of up to +2.4 dB PSNR and 35% lower RMSE under controlled lighting shifts.

Lernen latenter Stellvertreter für kontrollierbare Einzelbild-Neubeleuchtung

Learning Latent Proxies for Controllable Single-Image Relighting

Zusammenfassung

Support