Generazione e Modifica Iterativa Guidata dal Soggetto su Singola Immagine
Single Image Iterative Subject-driven Generation and Editing
March 20, 2025
Autori: Yair Shpitzer, Gal Chechik, Idan Schwartz
cs.AI
Abstract
La personalizzazione della generazione e della modifica delle immagini è particolarmente impegnativa quando si dispone solo di poche immagini del soggetto, o addirittura di una singola immagine. Un approccio comune alla personalizzazione è l'apprendimento di concetti, che può integrare il soggetto nei modelli esistenti in modo relativamente rapido, ma produce immagini la cui qualità tende a deteriorarsi rapidamente quando il numero di immagini del soggetto è ridotto. La qualità può essere migliorata pre-addestrando un codificatore, ma l'addestramento limita la generazione alla distribuzione di addestramento ed è dispendioso in termini di tempo. Rimane una sfida aperta e complessa personalizzare la generazione e la modifica delle immagini a partire da una singola immagine senza addestramento. Qui presentiamo SISO, un nuovo approccio senza addestramento basato sull'ottimizzazione di un punteggio di similarità con un'immagine soggetto di input. Più specificamente, SISO genera iterativamente immagini e ottimizza il modello in base alla perdita di similarità con l'immagine soggetto fornita fino al raggiungimento di un livello soddisfacente di similarità, consentendo un'ottimizzazione plug-and-play per qualsiasi generatore di immagini. Abbiamo valutato SISO in due compiti, la modifica delle immagini e la generazione di immagini, utilizzando un insieme di dati diversificato di soggetti personali, e dimostriamo miglioramenti significativi rispetto ai metodi esistenti in termini di qualità dell'immagine, fedeltà al soggetto e conservazione dello sfondo.
English
Personalizing image generation and editing is particularly challenging when
we only have a few images of the subject, or even a single image. A common
approach to personalization is concept learning, which can integrate the
subject into existing models relatively quickly, but produces images whose
quality tends to deteriorate quickly when the number of subject images is
small. Quality can be improved by pre-training an encoder, but training
restricts generation to the training distribution, and is time consuming. It is
still an open hard challenge to personalize image generation and editing from a
single image without training. Here, we present SISO, a novel, training-free
approach based on optimizing a similarity score with an input subject image.
More specifically, SISO iteratively generates images and optimizes the model
based on loss of similarity with the given subject image until a satisfactory
level of similarity is achieved, allowing plug-and-play optimization to any
image generator. We evaluated SISO in two tasks, image editing and image
generation, using a diverse data set of personal subjects, and demonstrate
significant improvements over existing methods in image quality, subject
fidelity, and background preservation.