Any-Size-Diffusion : Vers une synthèse efficace pilotée par texte pour des images HD de toute taille
Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images
August 31, 2023
Auteurs: Qingping Zheng, Yuanfan Guo, Jiankang Deng, Jianhua Han, Ying Li, Songcen Xu, Hang Xu
cs.AI
Résumé
Stable Diffusion, un modèle génératif utilisé dans la synthèse d'images à partir de texte, rencontre fréquemment des problèmes de composition induits par la résolution lors de la génération d'images de tailles variées. Ce problème découle principalement du fait que le modèle est entraîné sur des paires d'images à échelle unique et leurs descriptions textuelles correspondantes. De plus, un entraînement direct sur des images de tailles illimitées est irréalisable, car cela nécessiterait un nombre immense de paires texte-image et entraînerait des coûts de calcul substantiels. Pour surmonter ces défis, nous proposons un pipeline en deux étapes nommé Any-Size-Diffusion (ASD), conçu pour générer efficacement des images bien composées de toute taille, tout en minimisant le besoin de ressources GPU à haute mémoire. Plus précisément, la première étape, appelée Any Ratio Adaptability Diffusion (ARAD), exploite un ensemble sélectionné d'images avec une gamme restreinte de ratios pour optimiser le modèle de diffusion conditionné par le texte, améliorant ainsi sa capacité à ajuster la composition pour s'adapter à diverses tailles d'images. Pour soutenir la création d'images à n'importe quelle taille souhaitée, nous introduisons en outre une technique appelée Fast Seamless Tiled Diffusion (FSTD) à l'étape suivante. Cette méthode permet un agrandissement rapide de la sortie ASD à n'importe quelle taille haute résolution, évitant les artefacts de jointure ou les surcharges de mémoire. Les résultats expérimentaux sur les benchmarks LAION-COCO et MM-CelebA-HQ démontrent que ASD peut produire des images bien structurées de tailles arbitraires, réduisant le temps d'inférence par 2x par rapport à l'algorithme de tuilage traditionnel.
English
Stable diffusion, a generative model used in text-to-image synthesis,
frequently encounters resolution-induced composition problems when generating
images of varying sizes. This issue primarily stems from the model being
trained on pairs of single-scale images and their corresponding text
descriptions. Moreover, direct training on images of unlimited sizes is
unfeasible, as it would require an immense number of text-image pairs and
entail substantial computational expenses. To overcome these challenges, we
propose a two-stage pipeline named Any-Size-Diffusion (ASD), designed to
efficiently generate well-composed images of any size, while minimizing the
need for high-memory GPU resources. Specifically, the initial stage, dubbed Any
Ratio Adaptability Diffusion (ARAD), leverages a selected set of images with a
restricted range of ratios to optimize the text-conditional diffusion model,
thereby improving its ability to adjust composition to accommodate diverse
image sizes. To support the creation of images at any desired size, we further
introduce a technique called Fast Seamless Tiled Diffusion (FSTD) at the
subsequent stage. This method allows for the rapid enlargement of the ASD
output to any high-resolution size, avoiding seaming artifacts or memory
overloads. Experimental results on the LAION-COCO and MM-CelebA-HQ benchmarks
demonstrate that ASD can produce well-structured images of arbitrary sizes,
cutting down the inference time by 2x compared to the traditional tiled
algorithm.