Conditionnement spatial sans apprentissage préalable pour les modèles de diffusion texte-image
Zero-shot spatial layout conditioning for text-to-image diffusion models
June 23, 2023
Auteurs: Guillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek
cs.AI
Résumé
Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte ont considérablement amélioré l'état de l'art en modélisation générative d'images et offrent une interface utilisateur intuitive et puissante pour piloter le processus de génération d'images. Exprimer des contraintes spatiales, par exemple pour positionner des objets spécifiques à des emplacements particuliers, est fastidieux avec du texte ; et les modèles actuels de génération d'images basés sur le texte ne sont pas capables de suivre précisément de telles instructions. Dans cet article, nous examinons la génération d'images à partir de texte associé à des segments sur la toile de l'image, ce qui combine une interface en langage naturel intuitive avec un contrôle spatial précis sur le contenu généré. Nous proposons ZestGuide, une approche de guidage par segmentation en zero-shot qui peut être intégrée dans des modèles de diffusion pré-entraînés pour la génération d'images à partir de texte, et ne nécessite aucun entraînement supplémentaire. Elle exploite des cartes de segmentation implicites qui peuvent être extraites des couches d'attention croisée, et les utilise pour aligner la génération avec des masques d'entrée. Nos résultats expérimentaux combinent une haute qualité d'image avec un alignement précis du contenu généré avec les segmentations d'entrée, et améliorent les travaux antérieurs à la fois quantitativement et qualitativement, y compris les méthodes qui nécessitent un entraînement sur des images avec des segmentations correspondantes. Par rapport à Paint with Words, l'état de l'art précédent en génération d'images avec conditionnement par segmentation en zero-shot, nous améliorons de 5 à 10 points mIoU sur le jeu de données COCO avec des scores FID similaires.
English
Large-scale text-to-image diffusion models have significantly improved the
state of the art in generative image modelling and allow for an intuitive and
powerful user interface to drive the image generation process. Expressing
spatial constraints, e.g. to position specific objects in particular locations,
is cumbersome using text; and current text-based image generation models are
not able to accurately follow such instructions. In this paper we consider
image generation from text associated with segments on the image canvas, which
combines an intuitive natural language interface with precise spatial control
over the generated content. We propose ZestGuide, a zero-shot segmentation
guidance approach that can be plugged into pre-trained text-to-image diffusion
models, and does not require any additional training. It leverages implicit
segmentation maps that can be extracted from cross-attention layers, and uses
them to align the generation with input masks. Our experimental results combine
high image quality with accurate alignment of generated content with input
segmentations, and improve over prior work both quantitatively and
qualitatively, including methods that require training on images with
corresponding segmentations. Compared to Paint with Words, the previous
state-of-the art in image generation with zero-shot segmentation conditioning,
we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.