ChatPaper.aiChatPaper

Condicionamiento de diseño espacial zero-shot para modelos de difusión de texto a imagen

Zero-shot spatial layout conditioning for text-to-image diffusion models

June 23, 2023
Autores: Guillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek
cs.AI

Resumen

Los modelos de difusión de texto a imagen a gran escala han mejorado significativamente el estado del arte en la modelización generativa de imágenes y permiten una interfaz de usuario intuitiva y potente para guiar el proceso de generación de imágenes. Expresar restricciones espaciales, por ejemplo, para posicionar objetos específicos en ubicaciones particulares, resulta engorroso utilizando texto; y los modelos actuales de generación de imágenes basados en texto no son capaces de seguir con precisión tales instrucciones. En este artículo consideramos la generación de imágenes a partir de texto asociado con segmentos en el lienzo de la imagen, lo que combina una interfaz de lenguaje natural intuitiva con un control espacial preciso sobre el contenido generado. Proponemos ZestGuide, un enfoque de guía de segmentación zero-shot que puede integrarse en modelos de difusión de texto a imagen preentrenados y no requiere ningún entrenamiento adicional. Aprovecha mapas de segmentación implícitos que pueden extraerse de las capas de atención cruzada y los utiliza para alinear la generación con las máscaras de entrada. Nuestros resultados experimentales combinan una alta calidad de imagen con una alineación precisa del contenido generado con las segmentaciones de entrada, y mejoran el trabajo previo tanto cuantitativa como cualitativamente, incluyendo métodos que requieren entrenamiento en imágenes con segmentaciones correspondientes. En comparación con Paint with Words, el estado del arte anterior en la generación de imágenes con condicionamiento de segmentación zero-shot, mejoramos entre 5 y 10 puntos mIoU en el conjunto de datos COCO con puntuaciones FID similares.
English
Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image generation process. Expressing spatial constraints, e.g. to position specific objects in particular locations, is cumbersome using text; and current text-based image generation models are not able to accurately follow such instructions. In this paper we consider image generation from text associated with segments on the image canvas, which combines an intuitive natural language interface with precise spatial control over the generated content. We propose ZestGuide, a zero-shot segmentation guidance approach that can be plugged into pre-trained text-to-image diffusion models, and does not require any additional training. It leverages implicit segmentation maps that can be extracted from cross-attention layers, and uses them to align the generation with input masks. Our experimental results combine high image quality with accurate alignment of generated content with input segmentations, and improve over prior work both quantitatively and qualitatively, including methods that require training on images with corresponding segmentations. Compared to Paint with Words, the previous state-of-the art in image generation with zero-shot segmentation conditioning, we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.
PDF61December 15, 2024