Generación y Edición Iterativa Guiada por el Sujeto a partir de una Única Imagen
Single Image Iterative Subject-driven Generation and Editing
March 20, 2025
Autores: Yair Shpitzer, Gal Chechik, Idan Schwartz
cs.AI
Resumen
La personalización de la generación y edición de imágenes es particularmente desafiante cuando solo contamos con unas pocas imágenes del sujeto, o incluso una sola imagen. Un enfoque común para la personalización es el aprendizaje de conceptos, que puede integrar el sujeto en modelos existentes de manera relativamente rápida, pero produce imágenes cuya calidad tiende a deteriorarse rápidamente cuando el número de imágenes del sujeto es pequeño. La calidad puede mejorarse mediante el preentrenamiento de un codificador, pero el entrenamiento restringe la generación a la distribución de entrenamiento y consume mucho tiempo. Todavía es un desafío difícil y abierto personalizar la generación y edición de imágenes a partir de una sola imagen sin entrenamiento. Aquí presentamos SISO, un enfoque novedoso y sin entrenamiento basado en la optimización de una puntuación de similitud con una imagen de sujeto de entrada. Más específicamente, SISO genera imágenes de manera iterativa y optimiza el modelo basándose en la pérdida de similitud con la imagen del sujeto dada hasta que se alcanza un nivel satisfactorio de similitud, permitiendo una optimización plug-and-play para cualquier generador de imágenes. Evaluamos SISO en dos tareas, edición de imágenes y generación de imágenes, utilizando un conjunto de datos diverso de sujetos personales, y demostramos mejoras significativas sobre los métodos existentes en calidad de imagen, fidelidad del sujeto y preservación del fondo.
English
Personalizing image generation and editing is particularly challenging when
we only have a few images of the subject, or even a single image. A common
approach to personalization is concept learning, which can integrate the
subject into existing models relatively quickly, but produces images whose
quality tends to deteriorate quickly when the number of subject images is
small. Quality can be improved by pre-training an encoder, but training
restricts generation to the training distribution, and is time consuming. It is
still an open hard challenge to personalize image generation and editing from a
single image without training. Here, we present SISO, a novel, training-free
approach based on optimizing a similarity score with an input subject image.
More specifically, SISO iteratively generates images and optimizes the model
based on loss of similarity with the given subject image until a satisfactory
level of similarity is achieved, allowing plug-and-play optimization to any
image generator. We evaluated SISO in two tasks, image editing and image
generation, using a diverse data set of personal subjects, and demonstrate
significant improvements over existing methods in image quality, subject
fidelity, and background preservation.Summary
AI-Generated Summary