Ottimizzazione One-Shot Guidata da Oggetti per la Generazione di Immagini da Testo con Incorporamento Prototipico

Abstract

Poiché i modelli di generazione di immagini su larga scala da testo hanno compiuto progressi significativi nel campo della generazione di immagini da testo, sono stati proposti numerosi metodi di fine-tuning. Tuttavia, questi modelli spesso incontrano difficoltà con oggetti nuovi, specialmente in scenari one-shot. Il nostro metodo proposto mira a affrontare le sfide della generalizzabilità e della fedeltà in modo guidato dagli oggetti, utilizzando solo una singola immagine di input e le regioni di interesse specifiche per l'oggetto. Per migliorare la generalizzabilità e mitigare l'overfitting, nel nostro paradigma, un embedding prototipico viene inizializzato in base all'aspetto dell'oggetto e alla sua classe, prima di procedere al fine-tuning del modello di diffusione. Durante il fine-tuning, proponiamo una regolarizzazione caratterizzante della classe per preservare la conoscenza precedente delle classi di oggetti. Per migliorare ulteriormente la fedeltà, introduciamo una perdita specifica per l'oggetto, che può essere utilizzata anche per impiantare più oggetti. Nel complesso, il nostro metodo guidato dagli oggetti per l'impianto di nuovi oggetti può integrarsi perfettamente con concetti esistenti, garantendo alta fedeltà e generalizzazione. Il nostro metodo supera diversi lavori esistenti. Il codice verrà rilasciato.

English

As large-scale text-to-image generation models have made remarkable progress in the field of text-to-image generation, many fine-tuning methods have been proposed. However, these models often struggle with novel objects, especially with one-shot scenarios. Our proposed method aims to address the challenges of generalizability and fidelity in an object-driven way, using only a single input image and the object-specific regions of interest. To improve generalizability and mitigate overfitting, in our paradigm, a prototypical embedding is initialized based on the object's appearance and its class, before fine-tuning the diffusion model. And during fine-tuning, we propose a class-characterizing regularization to preserve prior knowledge of object classes. To further improve fidelity, we introduce object-specific loss, which can also use to implant multiple objects. Overall, our proposed object-driven method for implanting new objects can integrate seamlessly with existing concepts as well as with high fidelity and generalization. Our method outperforms several existing works. The code will be released.

Ottimizzazione One-Shot Guidata da Oggetti per la Generazione di Immagini da Testo con Incorporamento Prototipico

Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding

Abstract

Support