ChatPaper.aiChatPaper

SDXL: Улучшение латентных диффузионных моделей для синтеза изображений высокого разрешения

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

July 4, 2023
Авторы: Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, Robin Rombach
cs.AI

Аннотация

Мы представляем SDXL, латентную диффузионную модель для синтеза изображений по тексту. По сравнению с предыдущими версиями Stable Diffusion, SDXL использует в три раза более крупный бэкбон UNet: увеличение количества параметров модели в основном связано с добавлением большего числа блоков внимания и расширением контекста кросс-внимания, поскольку SDXL использует второй текстовый кодировщик. Мы разработали несколько новых схем кондиционирования и обучили SDXL на изображениях с различными соотношениями сторон. Также мы представляем модель уточнения, которая используется для повышения визуальной точности образцов, сгенерированных SDXL, с помощью постобработки методом "изображение-в-изображение". Мы демонстрируем, что SDXL значительно превосходит предыдущие версии Stable Diffusion и достигает результатов, сопоставимых с современными генераторами изображений, работающими как "черные ящики". В духе продвижения открытых исследований и повышения прозрачности в обучении и оценке крупных моделей, мы предоставляем доступ к коду и весам модели по адресу https://github.com/Stability-AI/generative-models.
English
We present SDXL, a latent diffusion model for text-to-image synthesis. Compared to previous versions of Stable Diffusion, SDXL leverages a three times larger UNet backbone: The increase of model parameters is mainly due to more attention blocks and a larger cross-attention context as SDXL uses a second text encoder. We design multiple novel conditioning schemes and train SDXL on multiple aspect ratios. We also introduce a refinement model which is used to improve the visual fidelity of samples generated by SDXL using a post-hoc image-to-image technique. We demonstrate that SDXL shows drastically improved performance compared the previous versions of Stable Diffusion and achieves results competitive with those of black-box state-of-the-art image generators. In the spirit of promoting open research and fostering transparency in large model training and evaluation, we provide access to code and model weights at https://github.com/Stability-AI/generative-models
PDF879December 15, 2024