Руководство моделью диффузии с использованием некорректной версии самой модели.
Guiding a Diffusion Model with a Bad Version of Itself
June 4, 2024
Авторы: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI
Аннотация
Основные оси интереса в моделях диффузии, генерирующих изображения, - это качество изображения, количество вариации в результатах и степень их соответствия заданному условию, например, метке класса или текстовому подсказу. Популярный подход к руководству без использования классификатора использует безусловную модель для направления условной модели, что приводит к одновременному улучшению соответствия подсказке и повышению качества изображений за счет снижения вариации. Эти эффекты кажутся неотделимо переплетенными и, следовательно, сложными для управления. Мы обнаружили удивительный факт, что возможно достичь разделенного контроля над качеством изображения, не жертвуя количеством вариации, направляя генерацию с использованием более маленькой, менее обученной версии самой модели, а не безусловной модели. Это приводит к значительным улучшениям в генерации ImageNet, устанавливая рекордные значения FID в 1.01 для 64x64 и 1.25 для 512x512 с использованием общедоступных сетей. Более того, метод также применим к безусловным моделям диффузии, радикально улучшая их качество.
English
The primary axes of interest in image-generating diffusion models are image
quality, the amount of variation in the results, and how well the results align
with a given condition, e.g., a class label or a text prompt. The popular
classifier-free guidance approach uses an unconditional model to guide a
conditional model, leading to simultaneously better prompt alignment and
higher-quality images at the cost of reduced variation. These effects seem
inherently entangled, and thus hard to control. We make the surprising
observation that it is possible to obtain disentangled control over image
quality without compromising the amount of variation by guiding generation
using a smaller, less-trained version of the model itself rather than an
unconditional model. This leads to significant improvements in ImageNet
generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using
publicly available networks. Furthermore, the method is also applicable to
unconditional diffusion models, drastically improving their quality.Summary
AI-Generated Summary