Generación y Edición Iterativa Guiada por el Sujeto a partir de una Única Imagen

Resumen

La personalización de la generación y edición de imágenes es particularmente desafiante cuando solo contamos con unas pocas imágenes del sujeto, o incluso una sola imagen. Un enfoque común para la personalización es el aprendizaje de conceptos, que puede integrar el sujeto en modelos existentes de manera relativamente rápida, pero produce imágenes cuya calidad tiende a deteriorarse rápidamente cuando el número de imágenes del sujeto es pequeño. La calidad puede mejorarse mediante el preentrenamiento de un codificador, pero el entrenamiento restringe la generación a la distribución de entrenamiento y consume mucho tiempo. Todavía es un desafío difícil y abierto personalizar la generación y edición de imágenes a partir de una sola imagen sin entrenamiento. Aquí presentamos SISO, un enfoque novedoso y sin entrenamiento basado en la optimización de una puntuación de similitud con una imagen de sujeto de entrada. Más específicamente, SISO genera imágenes de manera iterativa y optimiza el modelo basándose en la pérdida de similitud con la imagen del sujeto dada hasta que se alcanza un nivel satisfactorio de similitud, permitiendo una optimización plug-and-play para cualquier generador de imágenes. Evaluamos SISO en dos tareas, edición de imágenes y generación de imágenes, utilizando un conjunto de datos diverso de sujetos personales, y demostramos mejoras significativas sobre los métodos existentes en calidad de imagen, fidelidad del sujeto y preservación del fondo.

English

Personalizing image generation and editing is particularly challenging when we only have a few images of the subject, or even a single image. A common approach to personalization is concept learning, which can integrate the subject into existing models relatively quickly, but produces images whose quality tends to deteriorate quickly when the number of subject images is small. Quality can be improved by pre-training an encoder, but training restricts generation to the training distribution, and is time consuming. It is still an open hard challenge to personalize image generation and editing from a single image without training. Here, we present SISO, a novel, training-free approach based on optimizing a similarity score with an input subject image. More specifically, SISO iteratively generates images and optimizes the model based on loss of similarity with the given subject image until a satisfactory level of similarity is achieved, allowing plug-and-play optimization to any image generator. We evaluated SISO in two tasks, image editing and image generation, using a diverse data set of personal subjects, and demonstrate significant improvements over existing methods in image quality, subject fidelity, and background preservation.

Generación y Edición Iterativa Guiada por el Sujeto a partir de una Única Imagen

Single Image Iterative Subject-driven Generation and Editing

Resumen

Support