SDXL:高解像度画像合成のための潜在拡散モデルの改良
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
July 4, 2023
著者: Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, Robin Rombach
cs.AI
要旨
本論文では、テキストから画像を生成するための潜在拡散モデルであるSDXLを紹介します。従来のStable Diffusionと比較して、SDXLは3倍大きなUNetバックボーンを採用しています。モデルパラメータの増加は、主により多くのアテンションブロックと、第2のテキストエンコーダを使用することによるより大きなクロスアテンションコンテキストに起因しています。我々は複数の新しい条件付けスキームを設計し、SDXLを複数のアスペクト比で学習させました。また、SDXLによって生成されたサンプルの視覚的忠実度を向上させるために、ポストホックな画像間変換技術を使用するリファインメントモデルを導入しました。SDXLは、従来のStable Diffusionと比較して大幅に性能が向上し、ブラックボックスの最先端画像生成モデルと競合する結果を達成することを実証しました。大規模モデルの学習と評価における透明性を促進し、オープンな研究を推進する精神に基づき、コードとモデルウェイトをhttps://github.com/Stability-AI/generative-modelsで公開しています。
English
We present SDXL, a latent diffusion model for text-to-image synthesis.
Compared to previous versions of Stable Diffusion, SDXL leverages a three times
larger UNet backbone: The increase of model parameters is mainly due to more
attention blocks and a larger cross-attention context as SDXL uses a second
text encoder. We design multiple novel conditioning schemes and train SDXL on
multiple aspect ratios. We also introduce a refinement model which is used to
improve the visual fidelity of samples generated by SDXL using a post-hoc
image-to-image technique. We demonstrate that SDXL shows drastically improved
performance compared the previous versions of Stable Diffusion and achieves
results competitive with those of black-box state-of-the-art image generators.
In the spirit of promoting open research and fostering transparency in large
model training and evaluation, we provide access to code and model weights at
https://github.com/Stability-AI/generative-models