Modelo de Texto-para-Imagem em Grande Escala com Inpainting é um Gerador de Imagens Dirigido por Assunto sem Necessidade de Treinamento.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
November 23, 2024
Autores: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI
Resumo
A geração de imagem orientada por assunto visa produzir imagens de um novo assunto dentro de um contexto desejado, capturando com precisão tanto as características visuais do assunto quanto o conteúdo semântico de uma sugestão de texto. Métodos tradicionais dependem de ajustes finos intensivos em tempo e recursos para o alinhamento do assunto, enquanto abordagens recentes de zero-shot aproveitam o prompting de imagem sob demanda, frequentemente sacrificando o alinhamento do assunto. Neste artigo, apresentamos o Diptych Prompting, uma abordagem zero-shot inovadora que reinterpreta como uma tarefa de inpainting com alinhamento preciso do assunto, aproveitando a propriedade emergente da geração de diptico em modelos de geração de texto para imagem em larga escala. O Diptych Prompting organiza um diptico incompleto com a imagem de referência no painel esquerdo e realiza inpainting condicionado por texto no painel direito. Além disso, evitamos vazamentos de conteúdo indesejado removendo o plano de fundo na imagem de referência e melhoramos os detalhes refinados no assunto gerado, aprimorando os pesos de atenção entre os painéis durante o inpainting. Resultados experimentais confirmam que nossa abordagem supera significativamente os métodos de prompting de imagem zero-shot, resultando em imagens visualmente preferidas pelos usuários. Além disso, nosso método suporta não apenas a geração orientada por assunto, mas também a geração de imagens estilizadas e edição de imagens orientada por assunto, demonstrando versatilidade em diversas aplicações de geração de imagem. Página do projeto: https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new
subject within a desired context by accurately capturing both the visual
characteristics of the subject and the semantic content of a text prompt.
Traditional methods rely on time- and resource-intensive fine-tuning for
subject alignment, while recent zero-shot approaches leverage on-the-fly image
prompting, often sacrificing subject alignment. In this paper, we introduce
Diptych Prompting, a novel zero-shot approach that reinterprets as an
inpainting task with precise subject alignment by leveraging the emergent
property of diptych generation in large-scale text-to-image models. Diptych
Prompting arranges an incomplete diptych with the reference image in the left
panel, and performs text-conditioned inpainting on the right panel. We further
prevent unwanted content leakage by removing the background in the reference
image and improve fine-grained details in the generated subject by enhancing
attention weights between the panels during inpainting. Experimental results
confirm that our approach significantly outperforms zero-shot image prompting
methods, resulting in images that are visually preferred by users.
Additionally, our method supports not only subject-driven generation but also
stylized image generation and subject-driven image editing, demonstrating
versatility across diverse image generation applications. Project page:
https://diptychprompting.github.io/Summary
AI-Generated Summary