SDXL: Aprimorando Modelos de Difusão Latente para Síntese de Imagens de Alta Resolução

Resumo

Apresentamos o SDXL, um modelo de difusão latente para síntese de texto em imagem. Em comparação com versões anteriores do Stable Diffusion, o SDXL utiliza uma arquitetura UNet três vezes maior: o aumento de parâmetros do modelo deve-se principalmente a mais blocos de atenção e a um contexto de atenção cruzada maior, já que o SDXL emprega um segundo codificador de texto. Projetamos diversos esquemas de condicionamento inovadores e treinamos o SDXL em múltiplas proporções de aspecto. Também introduzimos um modelo de refinamento, utilizado para melhorar a fidelidade visual das amostras geradas pelo SDXL por meio de uma técnica pós-processamento de imagem em imagem. Demonstramos que o SDXL apresenta uma melhoria drástica de desempenho em relação às versões anteriores do Stable Diffusion e alcança resultados competitivos com os geradores de imagem de última geração de caixa preta. No espírito de promover pesquisa aberta e fomentar a transparência no treinamento e avaliação de modelos grandes, disponibilizamos o acesso ao código e aos pesos do modelo em https://github.com/Stability-AI/generative-models.

English

We present SDXL, a latent diffusion model for text-to-image synthesis. Compared to previous versions of Stable Diffusion, SDXL leverages a three times larger UNet backbone: The increase of model parameters is mainly due to more attention blocks and a larger cross-attention context as SDXL uses a second text encoder. We design multiple novel conditioning schemes and train SDXL on multiple aspect ratios. We also introduce a refinement model which is used to improve the visual fidelity of samples generated by SDXL using a post-hoc image-to-image technique. We demonstrate that SDXL shows drastically improved performance compared the previous versions of Stable Diffusion and achieves results competitive with those of black-box state-of-the-art image generators. In the spirit of promoting open research and fostering transparency in large model training and evaluation, we provide access to code and model weights at https://github.com/Stability-AI/generative-models

SDXL: Aprimorando Modelos de Difusão Latente para Síntese de Imagens de Alta Resolução

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

Resumo

Support