DiLightNet: Точное управление освещением для генерации изображений на основе диффузионных моделей
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation
February 19, 2024
Авторы: Chong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong
cs.AI
Аннотация
В данной статье представлен новый метод для осуществления детализированного управления освещением в процессе генерации изображений на основе текстовых описаний с использованием диффузионных моделей. Хотя существующие диффузионные модели уже способны генерировать изображения при любых условиях освещения, без дополнительных указаний эти модели склонны связывать содержание изображения с освещением. Более того, текстовые запросы не обладают достаточной выразительной силой для описания детализированных настроек освещения. Чтобы предоставить создателю контента возможность детализированного управления освещением в процессе генерации изображений, мы дополняем текстовый запрос подробной информацией об освещении в виде радиационных подсказок, то есть визуализаций геометрии сцены с однородным каноническим материалом при целевом освещении. Однако геометрия сцены, необходимая для создания радиационных подсказок, неизвестна. Наше ключевое наблюдение заключается в том, что нам нужно лишь направлять процесс диффузии, поэтому точные радиационные подсказки не обязательны; достаточно лишь указать диффузионной модели правильное направление. На основе этого наблюдения мы представляем трехэтапный метод управления освещением в процессе генерации изображений. На первом этапе мы используем стандартную предобученную диффузионную модель для создания промежуточного изображения при неуправляемом освещении. Затем, на втором этапе, мы повторно синтезируем и уточняем объект переднего плана в сгенерированном изображении, передавая целевое освещение в усовершенствованную диффузионную модель, названную DiLightNet, с использованием радиационных подсказок, вычисленных на основе грубой формы объекта переднего плана, выведенной из промежуточного изображения. Чтобы сохранить детали текстуры, мы умножаем радиационные подсказки на нейронное кодирование промежуточного синтезированного изображения перед передачей в DiLightNet. Наконец, на третьем этапе мы повторно синтезируем фон, чтобы он соответствовал освещению на объекте переднего плана. Мы демонстрируем и проверяем нашу диффузионную модель с управляемым освещением на различных текстовых запросах и условиях освещения.
English
This paper presents a novel method for exerting fine-grained lighting control
during text-driven diffusion-based image generation. While existing diffusion
models already have the ability to generate images under any lighting
condition, without additional guidance these models tend to correlate image
content and lighting. Moreover, text prompts lack the necessary expressional
power to describe detailed lighting setups. To provide the content creator with
fine-grained control over the lighting during image generation, we augment the
text-prompt with detailed lighting information in the form of radiance hints,
i.e., visualizations of the scene geometry with a homogeneous canonical
material under the target lighting. However, the scene geometry needed to
produce the radiance hints is unknown. Our key observation is that we only need
to guide the diffusion process, hence exact radiance hints are not necessary;
we only need to point the diffusion model in the right direction. Based on this
observation, we introduce a three stage method for controlling the lighting
during image generation. In the first stage, we leverage a standard pretrained
diffusion model to generate a provisional image under uncontrolled lighting.
Next, in the second stage, we resynthesize and refine the foreground object in
the generated image by passing the target lighting to a refined diffusion
model, named DiLightNet, using radiance hints computed on a coarse shape of the
foreground object inferred from the provisional image. To retain the texture
details, we multiply the radiance hints with a neural encoding of the
provisional synthesized image before passing it to DiLightNet. Finally, in the
third stage, we resynthesize the background to be consistent with the lighting
on the foreground object. We demonstrate and validate our lighting controlled
diffusion model on a variety of text prompts and lighting conditions.Summary
AI-Generated Summary