Objektgesteuertes One-Shot-Fine-Tuning von Text-zu-Bild-Diffusion mit prototypischem Embedding
Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding
January 28, 2024
Autoren: Jianxiang Lu, Cong Xie, Hui Guo
cs.AI
Zusammenfassung
Da großskalige Text-zu-Bild-Generierungsmodelle bemerkenswerte Fortschritte im Bereich der Text-zu-Bild-Generierung erzielt haben, wurden viele Feinabstimmungsmethoden vorgeschlagen. Diese Modelle haben jedoch oft Schwierigkeiten mit neuen Objekten, insbesondere in Einzelbeispielszenarien. Unsere vorgeschlagene Methode zielt darauf ab, die Herausforderungen der Generalisierbarkeit und Treue auf objektgetriebene Weise zu bewältigen, wobei nur ein einzelnes Eingabebild und die objektspezifischen Regionen von Interesse verwendet werden. Um die Generalisierbarkeit zu verbessern und Überanpassung zu vermeiden, wird in unserem Paradigma ein prototypisches Embedding basierend auf dem Erscheinungsbild des Objekts und seiner Klasse initialisiert, bevor das Diffusionsmodell feinabgestimmt wird. Während der Feinabstimmung schlagen wir eine klassencharakterisierende Regularisierung vor, um das Vorwissen über Objektklassen zu bewahren. Um die Treue weiter zu verbessern, führen wir einen objektspezifischen Verlust ein, der auch zur Implantation mehrerer Objekte verwendet werden kann. Insgesamt kann unsere vorgeschlagene objektgetriebene Methode zur Implantation neuer Objekte nahtlos mit bestehenden Konzepten sowie mit hoher Treue und Generalisierung integriert werden. Unsere Methode übertrifft mehrere bestehende Arbeiten. Der Code wird veröffentlicht.
English
As large-scale text-to-image generation models have made remarkable progress
in the field of text-to-image generation, many fine-tuning methods have been
proposed. However, these models often struggle with novel objects, especially
with one-shot scenarios. Our proposed method aims to address the challenges of
generalizability and fidelity in an object-driven way, using only a single
input image and the object-specific regions of interest. To improve
generalizability and mitigate overfitting, in our paradigm, a prototypical
embedding is initialized based on the object's appearance and its class, before
fine-tuning the diffusion model. And during fine-tuning, we propose a
class-characterizing regularization to preserve prior knowledge of object
classes. To further improve fidelity, we introduce object-specific loss, which
can also use to implant multiple objects. Overall, our proposed object-driven
method for implanting new objects can integrate seamlessly with existing
concepts as well as with high fidelity and generalization. Our method
outperforms several existing works. The code will be released.