ChatPaper.aiChatPaper

DiLightNet: Controle Fino de Iluminação para Geração de Imagens Baseada em Difusão

DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

February 19, 2024
Autores: Chong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong
cs.AI

Resumo

Este artigo apresenta um método inovador para exercer controle refinado de iluminação durante a geração de imagens baseada em difusão orientada por texto. Embora os modelos de difusão existentes já possuam a capacidade de gerar imagens sob qualquer condição de iluminação, sem orientação adicional, esses modelos tendem a correlacionar o conteúdo da imagem com a iluminação. Além disso, os prompts de texto carecem do poder expressivo necessário para descrever configurações detalhadas de iluminação. Para fornecer ao criador de conteúdo um controle refinado sobre a iluminação durante a geração de imagens, aumentamos o prompt de texto com informações detalhadas de iluminação na forma de dicas de radiância, ou seja, visualizações da geometria da cena com um material canônico homogêneo sob a iluminação desejada. No entanto, a geometria da cena necessária para produzir as dicas de radiância é desconhecida. Nossa observação-chave é que apenas precisamos guiar o processo de difusão, portanto, dicas de radiância exatas não são necessárias; apenas precisamos direcionar o modelo de difusão na direção correta. Com base nessa observação, introduzimos um método de três estágios para controlar a iluminação durante a geração de imagens. No primeiro estágio, utilizamos um modelo de difusão pré-treinado padrão para gerar uma imagem provisória sob iluminação não controlada. Em seguida, no segundo estágio, ressintetizamos e refinamos o objeto em primeiro plano na imagem gerada, passando a iluminação desejada para um modelo de difusão refinado, denominado DiLightNet, usando dicas de radiância calculadas em uma forma grosseira do objeto em primeiro plano inferida a partir da imagem provisória. Para reter os detalhes da textura, multiplicamos as dicas de radiância por uma codificação neural da imagem sintetizada provisória antes de passá-la para o DiLightNet. Finalmente, no terceiro estágio, ressintetizamos o fundo para que seja consistente com a iluminação no objeto em primeiro plano. Demonstramos e validamos nosso modelo de difusão controlado por iluminação em uma variedade de prompts de texto e condições de iluminação.
English
This paper presents a novel method for exerting fine-grained lighting control during text-driven diffusion-based image generation. While existing diffusion models already have the ability to generate images under any lighting condition, without additional guidance these models tend to correlate image content and lighting. Moreover, text prompts lack the necessary expressional power to describe detailed lighting setups. To provide the content creator with fine-grained control over the lighting during image generation, we augment the text-prompt with detailed lighting information in the form of radiance hints, i.e., visualizations of the scene geometry with a homogeneous canonical material under the target lighting. However, the scene geometry needed to produce the radiance hints is unknown. Our key observation is that we only need to guide the diffusion process, hence exact radiance hints are not necessary; we only need to point the diffusion model in the right direction. Based on this observation, we introduce a three stage method for controlling the lighting during image generation. In the first stage, we leverage a standard pretrained diffusion model to generate a provisional image under uncontrolled lighting. Next, in the second stage, we resynthesize and refine the foreground object in the generated image by passing the target lighting to a refined diffusion model, named DiLightNet, using radiance hints computed on a coarse shape of the foreground object inferred from the provisional image. To retain the texture details, we multiply the radiance hints with a neural encoding of the provisional synthesized image before passing it to DiLightNet. Finally, in the third stage, we resynthesize the background to be consistent with the lighting on the foreground object. We demonstrate and validate our lighting controlled diffusion model on a variety of text prompts and lighting conditions.
PDF111December 15, 2024