DiLightNet: Fijnmazige belichtingscontrole voor diffusiegebaseerde beeldgeneratie
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation
February 19, 2024
Auteurs: Chong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong
cs.AI
Samenvatting
Dit artikel presenteert een nieuwe methode voor het uitoefenen van fijnmazige lichtregie tijdens tekstgestuurde, diffusiegebaseerde beeldgeneratie. Hoewel bestaande diffusiemodellen al in staat zijn om afbeeldingen te genereren onder elke lichtconditie, hebben deze modellen zonder aanvullende begeleiding de neiging om beeldinhoud en belichting te correleren. Bovendien ontbreekt het tekstprompts aan de nodige uitdrukkingskracht om gedetailleerde lichtopstellingen te beschrijven. Om de inhoudscreator fijnmazige controle over de belichting te bieden tijdens beeldgeneratie, verrijken we het tekstprompt met gedetailleerde lichtinformatie in de vorm van radiance hints, dat wil zeggen visualisaties van de scènegeometrie met een homogeen canoniek materiaal onder de doelbelichting. De scènegeometrie die nodig is om de radiance hints te produceren, is echter onbekend. Onze belangrijkste observatie is dat we alleen het diffusieproces hoeven te begeleiden, waardoor exacte radiance hints niet nodig zijn; we hoeven het diffusiemodel alleen maar in de juiste richting te wijzen. Op basis van deze observatie introduceren we een driestapsmethode voor het beheersen van de belichting tijdens beeldgeneratie. In de eerste fase benutten we een standaard voorgetraind diffusiemodel om een voorlopige afbeelding te genereren onder ongecontroleerde belichting. Vervolgens, in de tweede fase, herontwerpen en verfijnen we het voorgrondobject in de gegenereerde afbeelding door de doelbelichting door te geven aan een verfijnd diffusiemodel, genaamd DiLightNet, met behulp van radiance hints berekend op een grove vorm van het voorgrondobject afgeleid uit de voorlopige afbeelding. Om de textuurdetails te behouden, vermenigvuldigen we de radiance hints met een neurale codering van de voorlopig gesynthetiseerde afbeelding voordat we deze doorgeven aan DiLightNet. Tot slot, in de derde fase, herontwerpen we de achtergrond zodat deze consistent is met de belichting op het voorgrondobject. We demonstreren en valideren ons lichtgecontroleerde diffusiemodel op een verscheidenheid aan tekstprompts en lichtcondities.
English
This paper presents a novel method for exerting fine-grained lighting control
during text-driven diffusion-based image generation. While existing diffusion
models already have the ability to generate images under any lighting
condition, without additional guidance these models tend to correlate image
content and lighting. Moreover, text prompts lack the necessary expressional
power to describe detailed lighting setups. To provide the content creator with
fine-grained control over the lighting during image generation, we augment the
text-prompt with detailed lighting information in the form of radiance hints,
i.e., visualizations of the scene geometry with a homogeneous canonical
material under the target lighting. However, the scene geometry needed to
produce the radiance hints is unknown. Our key observation is that we only need
to guide the diffusion process, hence exact radiance hints are not necessary;
we only need to point the diffusion model in the right direction. Based on this
observation, we introduce a three stage method for controlling the lighting
during image generation. In the first stage, we leverage a standard pretrained
diffusion model to generate a provisional image under uncontrolled lighting.
Next, in the second stage, we resynthesize and refine the foreground object in
the generated image by passing the target lighting to a refined diffusion
model, named DiLightNet, using radiance hints computed on a coarse shape of the
foreground object inferred from the provisional image. To retain the texture
details, we multiply the radiance hints with a neural encoding of the
provisional synthesized image before passing it to DiLightNet. Finally, in the
third stage, we resynthesize the background to be consistent with the lighting
on the foreground object. We demonstrate and validate our lighting controlled
diffusion model on a variety of text prompts and lighting conditions.