ChatPaper.aiChatPaper

LumiNet: Latente Eigenschaften treffen auf Diffusionsmodelle für die Neubeleuchtung von Innenräumen

LumiNet: Latent Intrinsics Meets Diffusion Models for Indoor Scene Relighting

November 29, 2024
Autoren: Xiaoyan Xing, Konrad Groh, Sezer Karaoglu, Theo Gevers, Anand Bhattad
cs.AI

Zusammenfassung

Wir stellen LumiNet vor, eine neuartige Architektur, die auf generativen Modellen und latenten intrinsischen Repräsentationen zur effektiven Lichtübertragung basiert. Unter Verwendung eines Ausgangsbildes und eines Zielbeleuchtungsbildes synthetisiert LumiNet eine neu beleuchtete Version der Ausgangsszene, die die Beleuchtung des Ziels einfängt. Unser Ansatz leistet zwei wesentliche Beiträge: eine Datenkuratierungsstrategie aus dem auf StyleGAN basierenden Beleuchtungsmodell für unser Training und ein modifiziertes, auf Diffusion basierendes ControlNet, das sowohl latente intrinsische Eigenschaften des Ausgangsbildes als auch latente extrinsische Eigenschaften des Zielbildes verarbeitet. Wir verbessern die Lichtübertragung weiter durch einen erlernten Adapter (MLP), der die latenten extrinsischen Eigenschaften des Ziels mittels Kreuz-Aufmerksamkeit und Feinabstimmung einspeist. Im Gegensatz zum traditionellen ControlNet, das Bilder mit bedingten Karten aus einer einzelnen Szene generiert, verarbeitet LumiNet latente Repräsentationen aus zwei verschiedenen Bildern – wobei Geometrie und Albedo aus der Quelle erhalten bleiben, während Beleuchtungseigenschaften vom Ziel übertragen werden. Experimente zeigen, dass unsere Methode komplexe Lichtphänomene wie Spitzlichter und indirekte Beleuchtung erfolgreich über Szenen mit unterschiedlichen räumlichen Layouts und Materialien hinweg überträgt und bestehende Ansätze bei anspruchsvollen Innenraumszenen unter Verwendung nur von Bildern als Eingabe übertrifft.
English
We introduce LumiNet, a novel architecture that leverages generative models and latent intrinsic representations for effective lighting transfer. Given a source image and a target lighting image, LumiNet synthesizes a relit version of the source scene that captures the target's lighting. Our approach makes two key contributions: a data curation strategy from the StyleGAN-based relighting model for our training, and a modified diffusion-based ControlNet that processes both latent intrinsic properties from the source image and latent extrinsic properties from the target image. We further improve lighting transfer through a learned adaptor (MLP) that injects the target's latent extrinsic properties via cross-attention and fine-tuning. Unlike traditional ControlNet, which generates images with conditional maps from a single scene, LumiNet processes latent representations from two different images - preserving geometry and albedo from the source while transferring lighting characteristics from the target. Experiments demonstrate that our method successfully transfers complex lighting phenomena including specular highlights and indirect illumination across scenes with varying spatial layouts and materials, outperforming existing approaches on challenging indoor scenes using only images as input.

Summary

AI-Generated Summary

PDF73December 5, 2024