ChatPaper.aiChatPaper

Conditionnement spatial sans apprentissage préalable pour les modèles de diffusion texte-image

Zero-shot spatial layout conditioning for text-to-image diffusion models

June 23, 2023
Auteurs: Guillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek
cs.AI

Résumé

Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte ont considérablement amélioré l'état de l'art en modélisation générative d'images et offrent une interface utilisateur intuitive et puissante pour piloter le processus de génération d'images. Exprimer des contraintes spatiales, par exemple pour positionner des objets spécifiques à des emplacements particuliers, est fastidieux avec du texte ; et les modèles actuels de génération d'images basés sur le texte ne sont pas capables de suivre précisément de telles instructions. Dans cet article, nous examinons la génération d'images à partir de texte associé à des segments sur la toile de l'image, ce qui combine une interface en langage naturel intuitive avec un contrôle spatial précis sur le contenu généré. Nous proposons ZestGuide, une approche de guidage par segmentation en zero-shot qui peut être intégrée dans des modèles de diffusion pré-entraînés pour la génération d'images à partir de texte, et ne nécessite aucun entraînement supplémentaire. Elle exploite des cartes de segmentation implicites qui peuvent être extraites des couches d'attention croisée, et les utilise pour aligner la génération avec des masques d'entrée. Nos résultats expérimentaux combinent une haute qualité d'image avec un alignement précis du contenu généré avec les segmentations d'entrée, et améliorent les travaux antérieurs à la fois quantitativement et qualitativement, y compris les méthodes qui nécessitent un entraînement sur des images avec des segmentations correspondantes. Par rapport à Paint with Words, l'état de l'art précédent en génération d'images avec conditionnement par segmentation en zero-shot, nous améliorons de 5 à 10 points mIoU sur le jeu de données COCO avec des scores FID similaires.
English
Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image generation process. Expressing spatial constraints, e.g. to position specific objects in particular locations, is cumbersome using text; and current text-based image generation models are not able to accurately follow such instructions. In this paper we consider image generation from text associated with segments on the image canvas, which combines an intuitive natural language interface with precise spatial control over the generated content. We propose ZestGuide, a zero-shot segmentation guidance approach that can be plugged into pre-trained text-to-image diffusion models, and does not require any additional training. It leverages implicit segmentation maps that can be extracted from cross-attention layers, and uses them to align the generation with input masks. Our experimental results combine high image quality with accurate alignment of generated content with input segmentations, and improve over prior work both quantitatively and qualitatively, including methods that require training on images with corresponding segmentations. Compared to Paint with Words, the previous state-of-the art in image generation with zero-shot segmentation conditioning, we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.
PDF61December 15, 2024