DiLightNet: Controllo Fine-grained dell'Illuminazione per la Generazione di Immagini basata su Diffusion

Abstract

Questo articolo presenta un metodo innovativo per esercitare un controllo fine dell'illuminazione durante la generazione di immagini basata su modelli di diffusione guidati da testo. Sebbene i modelli di diffusione esistenti siano già in grado di generare immagini in qualsiasi condizione di illuminazione, senza ulteriori indicazioni questi modelli tendono a correlare il contenuto dell'immagine con l'illuminazione. Inoltre, i prompt testuali non possiedono il potere espressivo necessario per descrivere configurazioni di illuminazione dettagliate. Per fornire al creatore di contenuti un controllo fine sull'illuminazione durante la generazione delle immagini, arricchiamo il prompt testuale con informazioni dettagliate sull'illuminazione sotto forma di suggerimenti di radianza, ovvero visualizzazioni della geometria della scena con un materiale canonico omogeneo sotto l'illuminazione target. Tuttavia, la geometria della scena necessaria per produrre i suggerimenti di radianza è sconosciuta. La nostra osservazione chiave è che abbiamo solo bisogno di guidare il processo di diffusione, quindi suggerimenti di radianza esatti non sono necessari; abbiamo solo bisogno di indirizzare il modello di diffusione nella giusta direzione. Sulla base di questa osservazione, introduciamo un metodo in tre fasi per controllare l'illuminazione durante la generazione delle immagini. Nella prima fase, sfruttiamo un modello di diffusione pre-addestrato standard per generare un'immagine provvisoria con illuminazione non controllata. Successivamente, nella seconda fase, risintetizziamo e perfezioniamo l'oggetto in primo piano nell'immagine generata passando l'illuminazione target a un modello di diffusione raffinato, denominato DiLightNet, utilizzando suggerimenti di radianza calcolati su una forma approssimativa dell'oggetto in primo piano dedotta dall'immagine provvisoria. Per mantenere i dettagli della texture, moltiplichiamo i suggerimenti di radianza con una codifica neurale dell'immagine sintetizzata provvisoria prima di passarli a DiLightNet. Infine, nella terza fase, risintetizziamo lo sfondo per renderlo coerente con l'illuminazione sull'oggetto in primo piano. Dimostriamo e validiamo il nostro modello di diffusione controllato dall'illuminazione su una varietà di prompt testuali e condizioni di illuminazione.

English

This paper presents a novel method for exerting fine-grained lighting control during text-driven diffusion-based image generation. While existing diffusion models already have the ability to generate images under any lighting condition, without additional guidance these models tend to correlate image content and lighting. Moreover, text prompts lack the necessary expressional power to describe detailed lighting setups. To provide the content creator with fine-grained control over the lighting during image generation, we augment the text-prompt with detailed lighting information in the form of radiance hints, i.e., visualizations of the scene geometry with a homogeneous canonical material under the target lighting. However, the scene geometry needed to produce the radiance hints is unknown. Our key observation is that we only need to guide the diffusion process, hence exact radiance hints are not necessary; we only need to point the diffusion model in the right direction. Based on this observation, we introduce a three stage method for controlling the lighting during image generation. In the first stage, we leverage a standard pretrained diffusion model to generate a provisional image under uncontrolled lighting. Next, in the second stage, we resynthesize and refine the foreground object in the generated image by passing the target lighting to a refined diffusion model, named DiLightNet, using radiance hints computed on a coarse shape of the foreground object inferred from the provisional image. To retain the texture details, we multiply the radiance hints with a neural encoding of the provisional synthesized image before passing it to DiLightNet. Finally, in the third stage, we resynthesize the background to be consistent with the lighting on the foreground object. We demonstrate and validate our lighting controlled diffusion model on a variety of text prompts and lighting conditions.

DiLightNet: Controllo Fine-grained dell'Illuminazione per la Generazione di Immagini basata su Diffusion

DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

Abstract

Support