Null-Shot-Raumlayout-Konditionierung für Text-zu-Bild-Diffusionsmodelle
Zero-shot spatial layout conditioning for text-to-image diffusion models
June 23, 2023
Autoren: Guillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek
cs.AI
Zusammenfassung
Großskalige Text-zu-Bild-Diffusionsmodelle haben den Stand der Technik in der generativen Bildmodellierung erheblich verbessert und ermöglichen eine intuitive und leistungsstarke Benutzeroberfläche zur Steuerung des Bildgenerierungsprozesses. Die Darstellung räumlicher Einschränkungen, z. B. um bestimmte Objekte an bestimmten Positionen zu platzieren, ist jedoch mit Text umständlich; und aktuelle textbasierte Bildgenerierungsmodelle sind nicht in der Lage, solche Anweisungen präzise zu befolgen. In diesem Artikel betrachten wir die Bildgenerierung aus Text, der mit Segmenten auf der Bildfläche verknüpft ist, was eine intuitive natürliche Sprachschnittstelle mit präziser räumlicher Kontrolle über den generierten Inhalt kombiniert. Wir schlagen ZestGuide vor, einen Zero-Shot-Segmentierungsansatz, der in vortrainierte Text-zu-Bild-Diffusionsmodelle eingebettet werden kann und kein zusätzliches Training erfordert. Es nutzt implizite Segmentierungskarten, die aus Cross-Attention-Schichten extrahiert werden können, und verwendet sie, um die Generierung mit Eingabemasken auszurichten. Unsere experimentellen Ergebnisse kombinieren hohe Bildqualität mit einer präzisen Ausrichtung des generierten Inhalts an den Eingabesegmentierungen und übertreffen frühere Arbeiten sowohl quantitativ als auch qualitativ, einschließlich Methoden, die ein Training auf Bildern mit entsprechenden Segmentierungen erfordern. Im Vergleich zu „Paint with Words“, dem bisherigen Stand der Technik in der Bildgenerierung mit Zero-Shot-Segmentierungsbedingung, verbessern wir uns um 5 bis 10 mIoU-Punkte auf dem COCO-Datensatz bei ähnlichen FID-Werten.
English
Large-scale text-to-image diffusion models have significantly improved the
state of the art in generative image modelling and allow for an intuitive and
powerful user interface to drive the image generation process. Expressing
spatial constraints, e.g. to position specific objects in particular locations,
is cumbersome using text; and current text-based image generation models are
not able to accurately follow such instructions. In this paper we consider
image generation from text associated with segments on the image canvas, which
combines an intuitive natural language interface with precise spatial control
over the generated content. We propose ZestGuide, a zero-shot segmentation
guidance approach that can be plugged into pre-trained text-to-image diffusion
models, and does not require any additional training. It leverages implicit
segmentation maps that can be extracted from cross-attention layers, and uses
them to align the generation with input masks. Our experimental results combine
high image quality with accurate alignment of generated content with input
segmentations, and improve over prior work both quantitatively and
qualitatively, including methods that require training on images with
corresponding segmentations. Compared to Paint with Words, the previous
state-of-the art in image generation with zero-shot segmentation conditioning,
we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.