Grootschalig tekst-naar-afbeeldingmodel met inpainting is een zero-shot Beeldgenerator aangestuurd door onderwerp.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
November 23, 2024
Auteurs: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI
Samenvatting
Onderwerpgestuurde tekst-naar-afbeelding generatie heeft als doel om afbeeldingen van een nieuw onderwerp binnen een gewenste context te produceren door zowel de visuele kenmerken van het onderwerp als de semantische inhoud van een tekstprompt nauwkeurig vast te leggen. Traditionele methoden vertrouwen op tijds- en resource-intensieve fijnafstemming voor onderwerpaligment, terwijl recente zero-shot benaderingen gebruikmaken van on-the-fly afbeeldingprompting, waarbij vaak onderwerpaligment wordt opgeofferd. In dit artikel introduceren we Diptiek Prompting, een nieuw zero-shot benadering die als een inpainting taak herinterpreteert met precies onderwerpaligment door gebruik te maken van het opkomende kenmerk van diptiek generatie in grootschalige tekst-naar-afbeelding modellen. Diptiek Prompting rangschikt een onvolledige diptiek met de referentieafbeelding in het linkerpaneel, en voert tekst-geconditioneerd inpainting uit op het rechterpaneel. We voorkomen verder ongewenst contentlek door de achtergrond in de referentieafbeelding te verwijderen en verbeteren fijngemalen details in het gegenereerde onderwerp door aandachtsgewichten tussen de panelen te versterken tijdens het inpaintingproces. Experimentele resultaten bevestigen dat onze benadering aanzienlijk beter presteert dan zero-shot afbeeldingprompting methoden, resulterend in afbeeldingen die visueel de voorkeur hebben van gebruikers. Bovendien ondersteunt onze methode niet alleen onderwerpgestuurde generatie, maar ook gestileerde afbeeldingsgeneratie en onderwerpgestuurde afbeeldingsbewerking, waarbij veelzijdigheid wordt aangetoond over diverse toepassingen voor afbeeldingsgeneratie. Projectpagina: https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new
subject within a desired context by accurately capturing both the visual
characteristics of the subject and the semantic content of a text prompt.
Traditional methods rely on time- and resource-intensive fine-tuning for
subject alignment, while recent zero-shot approaches leverage on-the-fly image
prompting, often sacrificing subject alignment. In this paper, we introduce
Diptych Prompting, a novel zero-shot approach that reinterprets as an
inpainting task with precise subject alignment by leveraging the emergent
property of diptych generation in large-scale text-to-image models. Diptych
Prompting arranges an incomplete diptych with the reference image in the left
panel, and performs text-conditioned inpainting on the right panel. We further
prevent unwanted content leakage by removing the background in the reference
image and improve fine-grained details in the generated subject by enhancing
attention weights between the panels during inpainting. Experimental results
confirm that our approach significantly outperforms zero-shot image prompting
methods, resulting in images that are visually preferred by users.
Additionally, our method supports not only subject-driven generation but also
stylized image generation and subject-driven image editing, demonstrating
versatility across diverse image generation applications. Project page:
https://diptychprompting.github.io/Summary
AI-Generated Summary