Groß angelegtes Text-zu-Bild-Modell mit Inpainting ist ein Zero-Shot subjektgesteuerter Bildgenerator.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
November 23, 2024
Autoren: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI
Zusammenfassung
Die subjektgesteuerte Text-zu-Bild-Erzeugung zielt darauf ab, Bilder eines neuen Subjekts in einem gewünschten Kontext zu erstellen, indem sowohl die visuellen Merkmale des Subjekts als auch der semantische Inhalt einer Textvorgabe präzise erfasst werden. Traditionelle Methoden verlassen sich auf zeit- und ressourcenintensives Feintuning für die Ausrichtung des Subjekts, während aktuelle Zero-Shot-Ansätze die Bildvorgabe im Flug nutzen, wobei oft die Ausrichtung des Subjekts geopfert wird. In diesem Papier stellen wir Diptych Prompting vor, einen neuartigen Zero-Shot-Ansatz, der die emergente Eigenschaft der Diptychon-Erzeugung in groß angelegten Text-zu-Bild-Modellen nutzt, um eine präzise Ausrichtung des Subjekts als Ausbesserungsaufgabe neu zu interpretieren. Diptych Prompting ordnet ein unvollständiges Diptychon mit dem Referenzbild im linken Panel an und führt eine textkonditionierte Ausbesserung im rechten Panel durch. Wir verhindern zusätzlich unerwünschtes Inhaltsleck durch Entfernen des Hintergrunds im Referenzbild und verbessern feingliedrige Details im generierten Subjekt, indem wir die Aufmerksamkeitsgewichte zwischen den Panels während der Ausbesserung verstärken. Experimentelle Ergebnisse bestätigen, dass unser Ansatz signifikant besser abschneidet als Zero-Shot-Bildvorgabe-Methoden und zu Bildern führt, die von Benutzern visuell bevorzugt werden. Darüber hinaus unterstützt unsere Methode nicht nur die subjektgesteuerte Erzeugung, sondern auch die stilisierte Bildgenerierung und die subjektgesteuerte Bildbearbeitung, was die Vielseitigkeit in verschiedenen Bildgenerierungsanwendungen zeigt. Projektseite: https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new
subject within a desired context by accurately capturing both the visual
characteristics of the subject and the semantic content of a text prompt.
Traditional methods rely on time- and resource-intensive fine-tuning for
subject alignment, while recent zero-shot approaches leverage on-the-fly image
prompting, often sacrificing subject alignment. In this paper, we introduce
Diptych Prompting, a novel zero-shot approach that reinterprets as an
inpainting task with precise subject alignment by leveraging the emergent
property of diptych generation in large-scale text-to-image models. Diptych
Prompting arranges an incomplete diptych with the reference image in the left
panel, and performs text-conditioned inpainting on the right panel. We further
prevent unwanted content leakage by removing the background in the reference
image and improve fine-grained details in the generated subject by enhancing
attention weights between the panels during inpainting. Experimental results
confirm that our approach significantly outperforms zero-shot image prompting
methods, resulting in images that are visually preferred by users.
Additionally, our method supports not only subject-driven generation but also
stylized image generation and subject-driven image editing, demonstrating
versatility across diverse image generation applications. Project page:
https://diptychprompting.github.io/Summary
AI-Generated Summary