Modelo de Texto a Imagen a Gran Escala con Relleno es un Generador de Imágenes Dirigido por Sujeto de Cero Disparos
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
November 23, 2024
Autores: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI
Resumen
La generación de imágenes impulsada por el sujeto tiene como objetivo producir imágenes de un nuevo sujeto dentro de un contexto deseado capturando con precisión tanto las características visuales del sujeto como el contenido semántico de una indicación de texto. Los métodos tradicionales dependen de un ajuste fino intensivo en tiempo y recursos para la alineación del sujeto, mientras que los enfoques recientes de cero disparo aprovechan la indicación de imágenes sobre la marcha, a menudo sacrificando la alineación del sujeto. En este documento, presentamos Diptych Prompting, un enfoque novedoso de cero disparo que reinterpretación como una tarea de relleno con alineación precisa del sujeto aprovechando la propiedad emergente de generación de dipticos en modelos de generación de texto a imagen a gran escala. Diptych Prompting coloca un diptico incompleto con la imagen de referencia en el panel izquierdo y realiza un relleno condicionado por texto en el panel derecho. Además, evitamos la fuga de contenido no deseado eliminando el fondo en la imagen de referencia y mejoramos los detalles finos en el sujeto generado al mejorar los pesos de atención entre los paneles durante el relleno. Los resultados experimentales confirman que nuestro enfoque supera significativamente a los métodos de indicación de imagen de cero disparo, lo que resulta en imágenes que son visualmente preferidas por los usuarios. Además, nuestro método no solo respalda la generación impulsada por el sujeto, sino también la generación de imágenes estilizadas y la edición de imágenes impulsada por el sujeto, demostrando versatilidad en diversas aplicaciones de generación de imágenes. Página del proyecto: https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new
subject within a desired context by accurately capturing both the visual
characteristics of the subject and the semantic content of a text prompt.
Traditional methods rely on time- and resource-intensive fine-tuning for
subject alignment, while recent zero-shot approaches leverage on-the-fly image
prompting, often sacrificing subject alignment. In this paper, we introduce
Diptych Prompting, a novel zero-shot approach that reinterprets as an
inpainting task with precise subject alignment by leveraging the emergent
property of diptych generation in large-scale text-to-image models. Diptych
Prompting arranges an incomplete diptych with the reference image in the left
panel, and performs text-conditioned inpainting on the right panel. We further
prevent unwanted content leakage by removing the background in the reference
image and improve fine-grained details in the generated subject by enhancing
attention weights between the panels during inpainting. Experimental results
confirm that our approach significantly outperforms zero-shot image prompting
methods, resulting in images that are visually preferred by users.
Additionally, our method supports not only subject-driven generation but also
stylized image generation and subject-driven image editing, demonstrating
versatility across diverse image generation applications. Project page:
https://diptychprompting.github.io/Summary
AI-Generated Summary