Condicionamiento de diseño espacial zero-shot para modelos de difusión de texto a imagen
Zero-shot spatial layout conditioning for text-to-image diffusion models
June 23, 2023
Autores: Guillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek
cs.AI
Resumen
Los modelos de difusión de texto a imagen a gran escala han mejorado significativamente el estado del arte en la modelización generativa de imágenes y permiten una interfaz de usuario intuitiva y potente para guiar el proceso de generación de imágenes. Expresar restricciones espaciales, por ejemplo, para posicionar objetos específicos en ubicaciones particulares, resulta engorroso utilizando texto; y los modelos actuales de generación de imágenes basados en texto no son capaces de seguir con precisión tales instrucciones. En este artículo consideramos la generación de imágenes a partir de texto asociado con segmentos en el lienzo de la imagen, lo que combina una interfaz de lenguaje natural intuitiva con un control espacial preciso sobre el contenido generado. Proponemos ZestGuide, un enfoque de guía de segmentación zero-shot que puede integrarse en modelos de difusión de texto a imagen preentrenados y no requiere ningún entrenamiento adicional. Aprovecha mapas de segmentación implícitos que pueden extraerse de las capas de atención cruzada y los utiliza para alinear la generación con las máscaras de entrada. Nuestros resultados experimentales combinan una alta calidad de imagen con una alineación precisa del contenido generado con las segmentaciones de entrada, y mejoran el trabajo previo tanto cuantitativa como cualitativamente, incluyendo métodos que requieren entrenamiento en imágenes con segmentaciones correspondientes. En comparación con Paint with Words, el estado del arte anterior en la generación de imágenes con condicionamiento de segmentación zero-shot, mejoramos entre 5 y 10 puntos mIoU en el conjunto de datos COCO con puntuaciones FID similares.
English
Large-scale text-to-image diffusion models have significantly improved the
state of the art in generative image modelling and allow for an intuitive and
powerful user interface to drive the image generation process. Expressing
spatial constraints, e.g. to position specific objects in particular locations,
is cumbersome using text; and current text-based image generation models are
not able to accurately follow such instructions. In this paper we consider
image generation from text associated with segments on the image canvas, which
combines an intuitive natural language interface with precise spatial control
over the generated content. We propose ZestGuide, a zero-shot segmentation
guidance approach that can be plugged into pre-trained text-to-image diffusion
models, and does not require any additional training. It leverages implicit
segmentation maps that can be extracted from cross-attention layers, and uses
them to align the generation with input masks. Our experimental results combine
high image quality with accurate alignment of generated content with input
segmentations, and improve over prior work both quantitatively and
qualitatively, including methods that require training on images with
corresponding segmentations. Compared to Paint with Words, the previous
state-of-the art in image generation with zero-shot segmentation conditioning,
we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.