大規模なテキストから画像へのモデルにおいて、修復を伴うゼロショット主導型画像生成器
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
November 23, 2024
著者: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI
要旨
主体駆動型のテキストから画像生成は、新しい主体の画像を所望のコンテキストで生成し、主体の視覚的特徴とテキストプロンプトの意味内容の両方を正確に捉えることを目指しています。従来の手法は、主体の整合性のために時間とリソースを費やす微調整に依存していますが、最近のゼロショット手法は、オンザフライの画像プロンプティングを活用し、しばしば主体の整合性を犠牲にしています。本論文では、大規模なテキストから画像生成モデルにおけるジプティク生成の新たなゼロショット手法である「Diptych Prompting」を紹介します。Diptych Promptingは、左パネルに参照画像を配置した不完全なジプティクを作成し、右パネルでテキスト条件付きのインペインティングを行います。さらに、参照画像から背景を除去することで不要な内容の漏洩を防ぎ、インペインティング中にパネル間の注意重みを強化することで生成された主体の細かい詳細を向上させます。実験結果は、当手法がゼロショット画像プロンプティング手法を大幅に上回り、ユーザーによって視覚的に好まれる画像を生成することを確認しています。さらに、当手法は主体駆動型の生成だけでなく、スタイル化された画像生成や主体駆動型の画像編集もサポートし、多様な画像生成アプリケーションでの汎用性を示しています。プロジェクトページ: https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new
subject within a desired context by accurately capturing both the visual
characteristics of the subject and the semantic content of a text prompt.
Traditional methods rely on time- and resource-intensive fine-tuning for
subject alignment, while recent zero-shot approaches leverage on-the-fly image
prompting, often sacrificing subject alignment. In this paper, we introduce
Diptych Prompting, a novel zero-shot approach that reinterprets as an
inpainting task with precise subject alignment by leveraging the emergent
property of diptych generation in large-scale text-to-image models. Diptych
Prompting arranges an incomplete diptych with the reference image in the left
panel, and performs text-conditioned inpainting on the right panel. We further
prevent unwanted content leakage by removing the background in the reference
image and improve fine-grained details in the generated subject by enhancing
attention weights between the panels during inpainting. Experimental results
confirm that our approach significantly outperforms zero-shot image prompting
methods, resulting in images that are visually preferred by users.
Additionally, our method supports not only subject-driven generation but also
stylized image generation and subject-driven image editing, demonstrating
versatility across diverse image generation applications. Project page:
https://diptychprompting.github.io/Summary
AI-Generated Summary