ChatPaper.aiChatPaper

DiLightNet : Contrôle granulaire de l'éclairage pour la génération d'images basée sur la diffusion

DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

February 19, 2024
Auteurs: Chong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong
cs.AI

Résumé

Cet article présente une nouvelle méthode pour exercer un contrôle précis de l'éclairage lors de la génération d'images basée sur la diffusion pilotée par texte. Bien que les modèles de diffusion existants soient déjà capables de générer des images sous n'importe quelle condition d'éclairage, sans guidage supplémentaire, ces modèles ont tendance à corréler le contenu de l'image et l'éclairage. De plus, les prompts textuels manquent de la puissance expressive nécessaire pour décrire des configurations d'éclairage détaillées. Pour offrir au créateur de contenu un contrôle précis de l'éclairage lors de la génération d'images, nous enrichissons le prompt textuel avec des informations détaillées sur l'éclairage sous forme d'indices de radiance, c'est-à-dire des visualisations de la géométrie de la scène avec un matériau canonique homogène sous l'éclairage cible. Cependant, la géométrie de la scène nécessaire pour produire ces indices de radiance est inconnue. Notre observation clé est que nous n'avons besoin que de guider le processus de diffusion, donc des indices de radiance exacts ne sont pas nécessaires ; il suffit d'orienter le modèle de diffusion dans la bonne direction. Sur la base de cette observation, nous introduisons une méthode en trois étapes pour contrôler l'éclairage lors de la génération d'images. Dans la première étape, nous utilisons un modèle de diffusion pré-entraîné standard pour générer une image provisoire sous un éclairage non contrôlé. Ensuite, dans la deuxième étape, nous resynthétisons et affinons l'objet au premier plan de l'image générée en transmettant l'éclairage cible à un modèle de diffusion raffiné, nommé DiLightNet, en utilisant des indices de radiance calculés sur une forme grossière de l'objet au premier plan déduite de l'image provisoire. Pour préserver les détails de texture, nous multiplions les indices de radiance par un encodage neuronal de l'image synthétisée provisoire avant de les transmettre à DiLightNet. Enfin, dans la troisième étape, nous resynthétisons l'arrière-plan pour qu'il soit cohérent avec l'éclairage de l'objet au premier plan. Nous démontrons et validons notre modèle de diffusion contrôlé par l'éclairage sur une variété de prompts textuels et de conditions d'éclairage.
English
This paper presents a novel method for exerting fine-grained lighting control during text-driven diffusion-based image generation. While existing diffusion models already have the ability to generate images under any lighting condition, without additional guidance these models tend to correlate image content and lighting. Moreover, text prompts lack the necessary expressional power to describe detailed lighting setups. To provide the content creator with fine-grained control over the lighting during image generation, we augment the text-prompt with detailed lighting information in the form of radiance hints, i.e., visualizations of the scene geometry with a homogeneous canonical material under the target lighting. However, the scene geometry needed to produce the radiance hints is unknown. Our key observation is that we only need to guide the diffusion process, hence exact radiance hints are not necessary; we only need to point the diffusion model in the right direction. Based on this observation, we introduce a three stage method for controlling the lighting during image generation. In the first stage, we leverage a standard pretrained diffusion model to generate a provisional image under uncontrolled lighting. Next, in the second stage, we resynthesize and refine the foreground object in the generated image by passing the target lighting to a refined diffusion model, named DiLightNet, using radiance hints computed on a coarse shape of the foreground object inferred from the provisional image. To retain the texture details, we multiply the radiance hints with a neural encoding of the provisional synthesized image before passing it to DiLightNet. Finally, in the third stage, we resynthesize the background to be consistent with the lighting on the foreground object. We demonstrate and validate our lighting controlled diffusion model on a variety of text prompts and lighting conditions.

Summary

AI-Generated Summary

PDF111December 15, 2024