Condicionamento de layout espacial zero-shot para modelos de difusão de texto para imagem.

Resumo

Modelos de difusão de texto para imagem em grande escala melhoraram significativamente o estado da arte na modelagem generativa de imagens e permitem uma interface de usuário intuitiva e poderosa para direcionar o processo de geração de imagens. Expressar restrições espaciais, por exemplo, para posicionar objetos específicos em locais particulares, é complicado usando texto; e os modelos atuais de geração de imagens baseados em texto não são capazes de seguir tais instruções com precisão. Neste artigo, consideramos a geração de imagens a partir de texto associado a segmentos na tela da imagem, o que combina uma interface intuitiva de linguagem natural com controle espacial preciso sobre o conteúdo gerado. Propomos o ZestGuide, uma abordagem de orientação de segmentação zero-shot que pode ser integrada a modelos de difusão de texto para imagem pré-treinados e não requer nenhum treinamento adicional. Ele aproveita mapas de segmentação implícitos que podem ser extraídos das camadas de atenção cruzada e os utiliza para alinhar a geração com máscaras de entrada. Nossos resultados experimentais combinam alta qualidade de imagem com alinhamento preciso do conteúdo gerado com as segmentações de entrada e melhoram o trabalho anterior tanto quantitativa quanto qualitativamente, incluindo métodos que exigem treinamento em imagens com segmentações correspondentes. Em comparação com o Paint with Words, o estado da arte anterior em geração de imagens com condicionamento de segmentação zero-shot, melhoramos de 5 a 10 pontos mIoU no conjunto de dados COCO com pontuações FID semelhantes.

English

Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image generation process. Expressing spatial constraints, e.g. to position specific objects in particular locations, is cumbersome using text; and current text-based image generation models are not able to accurately follow such instructions. In this paper we consider image generation from text associated with segments on the image canvas, which combines an intuitive natural language interface with precise spatial control over the generated content. We propose ZestGuide, a zero-shot segmentation guidance approach that can be plugged into pre-trained text-to-image diffusion models, and does not require any additional training. It leverages implicit segmentation maps that can be extracted from cross-attention layers, and uses them to align the generation with input masks. Our experimental results combine high image quality with accurate alignment of generated content with input segmentations, and improve over prior work both quantitatively and qualitatively, including methods that require training on images with corresponding segmentations. Compared to Paint with Words, the previous state-of-the art in image generation with zero-shot segmentation conditioning, we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.

Condicionamento de layout espacial zero-shot para modelos de difusão de texto para imagem.

Zero-shot spatial layout conditioning for text-to-image diffusion models

Resumo

Support