Null-Shot-Raumlayout-Konditionierung für Text-zu-Bild-Diffusionsmodelle

Zusammenfassung

Großskalige Text-zu-Bild-Diffusionsmodelle haben den Stand der Technik in der generativen Bildmodellierung erheblich verbessert und ermöglichen eine intuitive und leistungsstarke Benutzeroberfläche zur Steuerung des Bildgenerierungsprozesses. Die Darstellung räumlicher Einschränkungen, z. B. um bestimmte Objekte an bestimmten Positionen zu platzieren, ist jedoch mit Text umständlich; und aktuelle textbasierte Bildgenerierungsmodelle sind nicht in der Lage, solche Anweisungen präzise zu befolgen. In diesem Artikel betrachten wir die Bildgenerierung aus Text, der mit Segmenten auf der Bildfläche verknüpft ist, was eine intuitive natürliche Sprachschnittstelle mit präziser räumlicher Kontrolle über den generierten Inhalt kombiniert. Wir schlagen ZestGuide vor, einen Zero-Shot-Segmentierungsansatz, der in vortrainierte Text-zu-Bild-Diffusionsmodelle eingebettet werden kann und kein zusätzliches Training erfordert. Es nutzt implizite Segmentierungskarten, die aus Cross-Attention-Schichten extrahiert werden können, und verwendet sie, um die Generierung mit Eingabemasken auszurichten. Unsere experimentellen Ergebnisse kombinieren hohe Bildqualität mit einer präzisen Ausrichtung des generierten Inhalts an den Eingabesegmentierungen und übertreffen frühere Arbeiten sowohl quantitativ als auch qualitativ, einschließlich Methoden, die ein Training auf Bildern mit entsprechenden Segmentierungen erfordern. Im Vergleich zu „Paint with Words“, dem bisherigen Stand der Technik in der Bildgenerierung mit Zero-Shot-Segmentierungsbedingung, verbessern wir uns um 5 bis 10 mIoU-Punkte auf dem COCO-Datensatz bei ähnlichen FID-Werten.

English

Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image generation process. Expressing spatial constraints, e.g. to position specific objects in particular locations, is cumbersome using text; and current text-based image generation models are not able to accurately follow such instructions. In this paper we consider image generation from text associated with segments on the image canvas, which combines an intuitive natural language interface with precise spatial control over the generated content. We propose ZestGuide, a zero-shot segmentation guidance approach that can be plugged into pre-trained text-to-image diffusion models, and does not require any additional training. It leverages implicit segmentation maps that can be extracted from cross-attention layers, and uses them to align the generation with input masks. Our experimental results combine high image quality with accurate alignment of generated content with input segmentations, and improve over prior work both quantitatively and qualitatively, including methods that require training on images with corresponding segmentations. Compared to Paint with Words, the previous state-of-the art in image generation with zero-shot segmentation conditioning, we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.

Null-Shot-Raumlayout-Konditionierung für Text-zu-Bild-Diffusionsmodelle

Zero-shot spatial layout conditioning for text-to-image diffusion models

Zusammenfassung

Support