ChatPaper.aiChatPaper

DiLightNet: Fein abgestimmte Lichtsteuerung für diffusionsbasierte Bildgenerierung

DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

February 19, 2024
Autoren: Chong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong
cs.AI

Zusammenfassung

Dieses Papier stellt eine neuartige Methode zur fein abgestimmten Lichtsteuerung während der textgesteuerten, diffusionsbasierten Bildgenerierung vor. Obwohl bestehende Diffusionsmodelle bereits in der Lage sind, Bilder unter beliebigen Lichtbedingungen zu erzeugen, neigen diese Modelle ohne zusätzliche Anleitung dazu, Bildinhalt und Beleuchtung zu korrelieren. Darüber hinaus fehlt es Textprompts an der notwendigen Ausdruckskraft, um detaillierte Lichtszenarien zu beschreiben. Um dem Inhaltsersteller eine fein abgestimmte Kontrolle über die Beleuchtung während der Bildgenerierung zu ermöglichen, ergänzen wir den Textprompt mit detaillierten Lichtinformationen in Form von Radiance-Hinweisen, d. h. Visualisierungen der Szenengeometrie mit einem homogenen kanonischen Material unter der Zielbeleuchtung. Die zur Erzeugung der Radiance-Hinweise benötigte Szenengeometrie ist jedoch unbekannt. Unsere zentrale Beobachtung ist, dass wir lediglich den Diffusionsprozess lenken müssen, weshalb exakte Radiance-Hinweise nicht notwendig sind; wir müssen das Diffusionsmodell nur in die richtige Richtung weisen. Basierend auf dieser Beobachtung führen wir eine dreistufige Methode zur Steuerung der Beleuchtung während der Bildgenerierung ein. In der ersten Stufe nutzen wir ein standardmäßig vortrainiertes Diffusionsmodell, um ein vorläufiges Bild unter unkontrollierter Beleuchtung zu erzeugen. Anschließend resynthetisieren und verfeinern wir in der zweiten Stufe das Vordergrundobjekt im generierten Bild, indem wir die Zielbeleuchtung an ein verfeinertes Diffusionsmodell namens DiLightNet übergeben, wobei Radiance-Hinweise verwendet werden, die auf einer groben Form des Vordergrundobjekts basieren, die aus dem vorläufigen Bild abgeleitet wird. Um die Texturdetails beizubehalten, multiplizieren wir die Radiance-Hinweise mit einer neuronalen Kodierung des vorläufig synthetisierten Bildes, bevor wir sie an DiLightNet übergeben. Schließlich resynthetisieren wir in der dritten Stufe den Hintergrund, um ihn mit der Beleuchtung des Vordergrundobjekts konsistent zu machen. Wir demonstrieren und validieren unser lichtgesteuertes Diffusionsmodell anhand einer Vielzahl von Textprompts und Lichtbedingungen.
English
This paper presents a novel method for exerting fine-grained lighting control during text-driven diffusion-based image generation. While existing diffusion models already have the ability to generate images under any lighting condition, without additional guidance these models tend to correlate image content and lighting. Moreover, text prompts lack the necessary expressional power to describe detailed lighting setups. To provide the content creator with fine-grained control over the lighting during image generation, we augment the text-prompt with detailed lighting information in the form of radiance hints, i.e., visualizations of the scene geometry with a homogeneous canonical material under the target lighting. However, the scene geometry needed to produce the radiance hints is unknown. Our key observation is that we only need to guide the diffusion process, hence exact radiance hints are not necessary; we only need to point the diffusion model in the right direction. Based on this observation, we introduce a three stage method for controlling the lighting during image generation. In the first stage, we leverage a standard pretrained diffusion model to generate a provisional image under uncontrolled lighting. Next, in the second stage, we resynthesize and refine the foreground object in the generated image by passing the target lighting to a refined diffusion model, named DiLightNet, using radiance hints computed on a coarse shape of the foreground object inferred from the provisional image. To retain the texture details, we multiply the radiance hints with a neural encoding of the provisional synthesized image before passing it to DiLightNet. Finally, in the third stage, we resynthesize the background to be consistent with the lighting on the foreground object. We demonstrate and validate our lighting controlled diffusion model on a variety of text prompts and lighting conditions.
PDF111December 15, 2024