Modèle de texte à image à grande échelle avec Inpainting est un générateur d'images piloté par sujet en zéro-shot.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
November 23, 2024
Auteurs: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI
Résumé
La génération d'images basée sur le sujet vise à produire des images d'un nouveau sujet dans un contexte souhaité en capturant avec précision à la fois les caractéristiques visuelles du sujet et le contenu sémantique d'une instruction textuelle. Les méthodes traditionnelles reposent sur un ajustement fin intensif en temps et en ressources pour l'alignement du sujet, tandis que les approches récentes de type zéro-shot exploitent la génération d'images à la volée, sacrifiant souvent l'alignement du sujet. Dans cet article, nous introduisons le Prompting Diptyque, une nouvelle approche zéro-shot qui réinterprète une tâche de détourage avec un alignement précis du sujet en exploitant la propriété émergente de la génération de diptyques dans les modèles d'images textuelles à grande échelle. Le Prompting Diptyque dispose un diptyque incomplet avec l'image de référence dans le panneau de gauche, et réalise un détourage conditionné par le texte sur le panneau de droite. Nous empêchons en outre les fuites de contenu indésirables en supprimant l'arrière-plan dans l'image de référence et en améliorant les détails fins du sujet généré en renforçant les poids d'attention entre les panneaux pendant le détourage. Les résultats expérimentaux confirment que notre approche surpasse significativement les méthodes de génération d'images zéro-shot, donnant lieu à des images visuellement préférées par les utilisateurs. De plus, notre méthode prend en charge non seulement la génération basée sur le sujet, mais aussi la génération d'images stylisées et l'édition d'images basée sur le sujet, démontrant ainsi sa polyvalence dans diverses applications de génération d'images. Page du projet : https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new
subject within a desired context by accurately capturing both the visual
characteristics of the subject and the semantic content of a text prompt.
Traditional methods rely on time- and resource-intensive fine-tuning for
subject alignment, while recent zero-shot approaches leverage on-the-fly image
prompting, often sacrificing subject alignment. In this paper, we introduce
Diptych Prompting, a novel zero-shot approach that reinterprets as an
inpainting task with precise subject alignment by leveraging the emergent
property of diptych generation in large-scale text-to-image models. Diptych
Prompting arranges an incomplete diptych with the reference image in the left
panel, and performs text-conditioned inpainting on the right panel. We further
prevent unwanted content leakage by removing the background in the reference
image and improve fine-grained details in the generated subject by enhancing
attention weights between the panels during inpainting. Experimental results
confirm that our approach significantly outperforms zero-shot image prompting
methods, resulting in images that are visually preferred by users.
Additionally, our method supports not only subject-driven generation but also
stylized image generation and subject-driven image editing, demonstrating
versatility across diverse image generation applications. Project page:
https://diptychprompting.github.io/Summary
AI-Generated Summary