LumiNet: Latente Eigenschaften treffen auf Diffusionsmodelle für die Neubeleuchtung von Innenräumen
LumiNet: Latent Intrinsics Meets Diffusion Models for Indoor Scene Relighting
November 29, 2024
Autoren: Xiaoyan Xing, Konrad Groh, Sezer Karaoglu, Theo Gevers, Anand Bhattad
cs.AI
Zusammenfassung
Wir stellen LumiNet vor, eine neuartige Architektur, die auf generativen Modellen und latenten intrinsischen Repräsentationen zur effektiven Lichtübertragung basiert. Unter Verwendung eines Ausgangsbildes und eines Zielbeleuchtungsbildes synthetisiert LumiNet eine neu beleuchtete Version der Ausgangsszene, die die Beleuchtung des Ziels einfängt. Unser Ansatz leistet zwei wesentliche Beiträge: eine Datenkuratierungsstrategie aus dem auf StyleGAN basierenden Beleuchtungsmodell für unser Training und ein modifiziertes, auf Diffusion basierendes ControlNet, das sowohl latente intrinsische Eigenschaften des Ausgangsbildes als auch latente extrinsische Eigenschaften des Zielbildes verarbeitet. Wir verbessern die Lichtübertragung weiter durch einen erlernten Adapter (MLP), der die latenten extrinsischen Eigenschaften des Ziels mittels Kreuz-Aufmerksamkeit und Feinabstimmung einspeist.
Im Gegensatz zum traditionellen ControlNet, das Bilder mit bedingten Karten aus einer einzelnen Szene generiert, verarbeitet LumiNet latente Repräsentationen aus zwei verschiedenen Bildern – wobei Geometrie und Albedo aus der Quelle erhalten bleiben, während Beleuchtungseigenschaften vom Ziel übertragen werden. Experimente zeigen, dass unsere Methode komplexe Lichtphänomene wie Spitzlichter und indirekte Beleuchtung erfolgreich über Szenen mit unterschiedlichen räumlichen Layouts und Materialien hinweg überträgt und bestehende Ansätze bei anspruchsvollen Innenraumszenen unter Verwendung nur von Bildern als Eingabe übertrifft.
English
We introduce LumiNet, a novel architecture that leverages generative models
and latent intrinsic representations for effective lighting transfer. Given a
source image and a target lighting image, LumiNet synthesizes a relit version
of the source scene that captures the target's lighting. Our approach makes two
key contributions: a data curation strategy from the StyleGAN-based relighting
model for our training, and a modified diffusion-based ControlNet that
processes both latent intrinsic properties from the source image and latent
extrinsic properties from the target image. We further improve lighting
transfer through a learned adaptor (MLP) that injects the target's latent
extrinsic properties via cross-attention and fine-tuning.
Unlike traditional ControlNet, which generates images with conditional maps
from a single scene, LumiNet processes latent representations from two
different images - preserving geometry and albedo from the source while
transferring lighting characteristics from the target. Experiments demonstrate
that our method successfully transfers complex lighting phenomena including
specular highlights and indirect illumination across scenes with varying
spatial layouts and materials, outperforming existing approaches on challenging
indoor scenes using only images as input.Summary
AI-Generated Summary