DiLightNet: Control fino de iluminación para la generación de imágenes basada en difusión
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation
February 19, 2024
Autores: Chong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong
cs.AI
Resumen
Este artículo presenta un método novedoso para ejercer un control detallado de la iluminación durante la generación de imágenes basada en difusión impulsada por texto. Aunque los modelos de difusión existentes ya tienen la capacidad de generar imágenes bajo cualquier condición de iluminación, sin una guía adicional estos modelos tienden a correlacionar el contenido de la imagen con la iluminación. Además, los prompts de texto carecen del poder expresivo necesario para describir configuraciones detalladas de iluminación. Para proporcionar al creador de contenido un control detallado sobre la iluminación durante la generación de imágenes, aumentamos el prompt de texto con información detallada de iluminación en forma de indicios de radiancia, es decir, visualizaciones de la geometría de la escena con un material canónico homogéneo bajo la iluminación objetivo. Sin embargo, la geometría de la escena necesaria para producir los indicios de radiancia es desconocida. Nuestra observación clave es que solo necesitamos guiar el proceso de difusión, por lo que no son necesarios indicios de radiancia exactos; solo necesitamos dirigir el modelo de difusión en la dirección correcta. Basándonos en esta observación, introducimos un método de tres etapas para controlar la iluminación durante la generación de imágenes. En la primera etapa, aprovechamos un modelo de difusión preentrenado estándar para generar una imagen provisional bajo iluminación no controlada. Luego, en la segunda etapa, resintetizamos y refinamos el objeto en primer plano de la imagen generada pasando la iluminación objetivo a un modelo de difusión refinado, llamado DiLightNet, utilizando indicios de radiancia calculados sobre una forma aproximada del objeto en primer plano inferida de la imagen provisional. Para conservar los detalles de la textura, multiplicamos los indicios de radiancia con una codificación neuronal de la imagen sintetizada provisional antes de pasarla a DiLightNet. Finalmente, en la tercera etapa, resintetizamos el fondo para que sea consistente con la iluminación del objeto en primer plano. Demostramos y validamos nuestro modelo de difusión controlado por iluminación en una variedad de prompts de texto y condiciones de iluminación.
English
This paper presents a novel method for exerting fine-grained lighting control
during text-driven diffusion-based image generation. While existing diffusion
models already have the ability to generate images under any lighting
condition, without additional guidance these models tend to correlate image
content and lighting. Moreover, text prompts lack the necessary expressional
power to describe detailed lighting setups. To provide the content creator with
fine-grained control over the lighting during image generation, we augment the
text-prompt with detailed lighting information in the form of radiance hints,
i.e., visualizations of the scene geometry with a homogeneous canonical
material under the target lighting. However, the scene geometry needed to
produce the radiance hints is unknown. Our key observation is that we only need
to guide the diffusion process, hence exact radiance hints are not necessary;
we only need to point the diffusion model in the right direction. Based on this
observation, we introduce a three stage method for controlling the lighting
during image generation. In the first stage, we leverage a standard pretrained
diffusion model to generate a provisional image under uncontrolled lighting.
Next, in the second stage, we resynthesize and refine the foreground object in
the generated image by passing the target lighting to a refined diffusion
model, named DiLightNet, using radiance hints computed on a coarse shape of the
foreground object inferred from the provisional image. To retain the texture
details, we multiply the radiance hints with a neural encoding of the
provisional synthesized image before passing it to DiLightNet. Finally, in the
third stage, we resynthesize the background to be consistent with the lighting
on the foreground object. We demonstrate and validate our lighting controlled
diffusion model on a variety of text prompts and lighting conditions.Summary
AI-Generated Summary