SDXL: Aprimorando Modelos de Difusão Latente para Síntese de Imagens de Alta Resolução
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
July 4, 2023
Autores: Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, Robin Rombach
cs.AI
Resumo
Apresentamos o SDXL, um modelo de difusão latente para síntese de texto em imagem. Em comparação com versões anteriores do Stable Diffusion, o SDXL utiliza uma arquitetura UNet três vezes maior: o aumento de parâmetros do modelo deve-se principalmente a mais blocos de atenção e a um contexto de atenção cruzada maior, já que o SDXL emprega um segundo codificador de texto. Projetamos diversos esquemas de condicionamento inovadores e treinamos o SDXL em múltiplas proporções de aspecto. Também introduzimos um modelo de refinamento, utilizado para melhorar a fidelidade visual das amostras geradas pelo SDXL por meio de uma técnica pós-processamento de imagem em imagem. Demonstramos que o SDXL apresenta uma melhoria drástica de desempenho em relação às versões anteriores do Stable Diffusion e alcança resultados competitivos com os geradores de imagem de última geração de caixa preta. No espírito de promover pesquisa aberta e fomentar a transparência no treinamento e avaliação de modelos grandes, disponibilizamos o acesso ao código e aos pesos do modelo em https://github.com/Stability-AI/generative-models.
English
We present SDXL, a latent diffusion model for text-to-image synthesis.
Compared to previous versions of Stable Diffusion, SDXL leverages a three times
larger UNet backbone: The increase of model parameters is mainly due to more
attention blocks and a larger cross-attention context as SDXL uses a second
text encoder. We design multiple novel conditioning schemes and train SDXL on
multiple aspect ratios. We also introduce a refinement model which is used to
improve the visual fidelity of samples generated by SDXL using a post-hoc
image-to-image technique. We demonstrate that SDXL shows drastically improved
performance compared the previous versions of Stable Diffusion and achieves
results competitive with those of black-box state-of-the-art image generators.
In the spirit of promoting open research and fostering transparency in large
model training and evaluation, we provide access to code and model weights at
https://github.com/Stability-AI/generative-models