Any-Size-Diffusion: Hacia una síntesis eficiente basada en texto para imágenes HD de cualquier tamaño
Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images
August 31, 2023
Autores: Qingping Zheng, Yuanfan Guo, Jiankang Deng, Jianhua Han, Ying Li, Songcen Xu, Hang Xu
cs.AI
Resumen
Stable Diffusion, un modelo generativo utilizado en la síntesis de texto a imagen, frecuentemente enfrenta problemas de composición inducidos por la resolución al generar imágenes de diversos tamaños. Este problema surge principalmente porque el modelo fue entrenado con pares de imágenes de una sola escala y sus correspondientes descripciones de texto. Además, el entrenamiento directo con imágenes de tamaños ilimitados no es viable, ya que requeriría un número inmenso de pares texto-imagen y conllevaría gastos computacionales sustanciales. Para superar estos desafíos, proponemos un pipeline de dos etapas llamado Any-Size-Diffusion (ASD), diseñado para generar eficientemente imágenes bien compuestas de cualquier tamaño, minimizando la necesidad de recursos de GPU de alta memoria. Específicamente, la etapa inicial, denominada Any Ratio Adaptability Diffusion (ARAD), aprovecha un conjunto seleccionado de imágenes con un rango restringido de proporciones para optimizar el modelo de difusión condicionado por texto, mejorando así su capacidad para ajustar la composición y adaptarse a diversos tamaños de imagen. Para respaldar la creación de imágenes en cualquier tamaño deseado, introducimos además una técnica llamada Fast Seamless Tiled Diffusion (FSTD) en la etapa subsiguiente. Este método permite la ampliación rápida de la salida de ASD a cualquier tamaño de alta resolución, evitando artefactos de unión o sobrecargas de memoria. Los resultados experimentales en los benchmarks LAION-COCO y MM-CelebA-HQ demuestran que ASD puede producir imágenes bien estructuradas de tamaños arbitrarios, reduciendo el tiempo de inferencia en 2x en comparación con el algoritmo tradicional de mosaicos.
English
Stable diffusion, a generative model used in text-to-image synthesis,
frequently encounters resolution-induced composition problems when generating
images of varying sizes. This issue primarily stems from the model being
trained on pairs of single-scale images and their corresponding text
descriptions. Moreover, direct training on images of unlimited sizes is
unfeasible, as it would require an immense number of text-image pairs and
entail substantial computational expenses. To overcome these challenges, we
propose a two-stage pipeline named Any-Size-Diffusion (ASD), designed to
efficiently generate well-composed images of any size, while minimizing the
need for high-memory GPU resources. Specifically, the initial stage, dubbed Any
Ratio Adaptability Diffusion (ARAD), leverages a selected set of images with a
restricted range of ratios to optimize the text-conditional diffusion model,
thereby improving its ability to adjust composition to accommodate diverse
image sizes. To support the creation of images at any desired size, we further
introduce a technique called Fast Seamless Tiled Diffusion (FSTD) at the
subsequent stage. This method allows for the rapid enlargement of the ASD
output to any high-resolution size, avoiding seaming artifacts or memory
overloads. Experimental results on the LAION-COCO and MM-CelebA-HQ benchmarks
demonstrate that ASD can produce well-structured images of arbitrary sizes,
cutting down the inference time by 2x compared to the traditional tiled
algorithm.