SDXL: Улучшение латентных диффузионных моделей для синтеза изображений высокого разрешения
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
July 4, 2023
Авторы: Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, Robin Rombach
cs.AI
Аннотация
Мы представляем SDXL, латентную диффузионную модель для синтеза изображений по тексту. По сравнению с предыдущими версиями Stable Diffusion, SDXL использует в три раза более крупный бэкбон UNet: увеличение количества параметров модели в основном связано с добавлением большего числа блоков внимания и расширением контекста кросс-внимания, поскольку SDXL использует второй текстовый кодировщик. Мы разработали несколько новых схем кондиционирования и обучили SDXL на изображениях с различными соотношениями сторон. Также мы представляем модель уточнения, которая используется для повышения визуальной точности образцов, сгенерированных SDXL, с помощью постобработки методом "изображение-в-изображение". Мы демонстрируем, что SDXL значительно превосходит предыдущие версии Stable Diffusion и достигает результатов, сопоставимых с современными генераторами изображений, работающими как "черные ящики". В духе продвижения открытых исследований и повышения прозрачности в обучении и оценке крупных моделей, мы предоставляем доступ к коду и весам модели по адресу https://github.com/Stability-AI/generative-models.
English
We present SDXL, a latent diffusion model for text-to-image synthesis.
Compared to previous versions of Stable Diffusion, SDXL leverages a three times
larger UNet backbone: The increase of model parameters is mainly due to more
attention blocks and a larger cross-attention context as SDXL uses a second
text encoder. We design multiple novel conditioning schemes and train SDXL on
multiple aspect ratios. We also introduce a refinement model which is used to
improve the visual fidelity of samples generated by SDXL using a post-hoc
image-to-image technique. We demonstrate that SDXL shows drastically improved
performance compared the previous versions of Stable Diffusion and achieves
results competitive with those of black-box state-of-the-art image generators.
In the spirit of promoting open research and fostering transparency in large
model training and evaluation, we provide access to code and model weights at
https://github.com/Stability-AI/generative-models