Any-Size-Diffusion: 任意サイズのHD画像に対する効率的なテキスト駆動合成に向けて
Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images
August 31, 2023
著者: Qingping Zheng, Yuanfan Guo, Jiankang Deng, Jianhua Han, Ying Li, Songcen Xu, Hang Xu
cs.AI
要旨
テキストから画像を生成するための生成モデルであるStable Diffusionは、さまざまなサイズの画像を生成する際に、解像度に起因する構図の問題に頻繁に直面します。この問題は主に、単一スケールの画像とそれに対応するテキスト記述のペアでモデルが訓練されていることに起因しています。さらに、無制限のサイズの画像を直接訓練することは非現実的であり、膨大な数のテキストと画像のペアが必要となり、多大な計算コストを伴います。これらの課題を克服するために、我々はAny-Size-Diffusion(ASD)という2段階のパイプラインを提案します。このパイプラインは、任意のサイズの構図の整った画像を効率的に生成しつつ、高メモリGPUリソースの必要性を最小限に抑えるように設計されています。具体的には、最初の段階であるAny Ratio Adaptability Diffusion(ARAD)では、制限された範囲のアスペクト比を持つ画像セットを活用して、テキスト条件付き拡散モデルを最適化し、多様な画像サイズに対応するための構図調整能力を向上させます。さらに、任意のサイズの画像を作成するために、次の段階でFast Seamless Tiled Diffusion(FSTD)という技術を導入します。この手法により、ASDの出力を高速に任意の高解像度サイズに拡大することが可能となり、シームのアーティファクトやメモリの過負荷を回避します。LAION-COCOおよびMM-CelebA-HQベンチマークでの実験結果は、ASDが任意のサイズの構図の整った画像を生成できることを示しており、従来のタイルアルゴリズムと比較して推論時間を2倍短縮することが確認されました。
English
Stable diffusion, a generative model used in text-to-image synthesis,
frequently encounters resolution-induced composition problems when generating
images of varying sizes. This issue primarily stems from the model being
trained on pairs of single-scale images and their corresponding text
descriptions. Moreover, direct training on images of unlimited sizes is
unfeasible, as it would require an immense number of text-image pairs and
entail substantial computational expenses. To overcome these challenges, we
propose a two-stage pipeline named Any-Size-Diffusion (ASD), designed to
efficiently generate well-composed images of any size, while minimizing the
need for high-memory GPU resources. Specifically, the initial stage, dubbed Any
Ratio Adaptability Diffusion (ARAD), leverages a selected set of images with a
restricted range of ratios to optimize the text-conditional diffusion model,
thereby improving its ability to adjust composition to accommodate diverse
image sizes. To support the creation of images at any desired size, we further
introduce a technique called Fast Seamless Tiled Diffusion (FSTD) at the
subsequent stage. This method allows for the rapid enlargement of the ASD
output to any high-resolution size, avoiding seaming artifacts or memory
overloads. Experimental results on the LAION-COCO and MM-CelebA-HQ benchmarks
demonstrate that ASD can produce well-structured images of arbitrary sizes,
cutting down the inference time by 2x compared to the traditional tiled
algorithm.