Object-Gestuurde One-Shot Fine-tuning van Text-to-Image Diffusie met Prototypische Embedding
Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding
January 28, 2024
Auteurs: Jianxiang Lu, Cong Xie, Hui Guo
cs.AI
Samenvatting
Naarmate grootschalige tekst-naar-beeldgeneratiemodellen opmerkelijke vooruitgang hebben geboekt op het gebied van tekst-naar-beeldgeneratie, zijn er veel fine-tuningmethoden voorgesteld. Deze modellen hebben echter vaak moeite met nieuwe objecten, vooral in one-shot-scenario's. Onze voorgestelde methode heeft als doel de uitdagingen van generaliseerbaarheid en getrouwheid op een objectgerichte manier aan te pakken, waarbij slechts één invoerbeeld en de object-specifieke interessegebieden worden gebruikt. Om de generaliseerbaarheid te verbeteren en overfitting te verminderen, wordt in ons paradigma een prototypische embedding geïnitialiseerd op basis van het uiterlijk van het object en zijn klasse, voordat het diffusiemodel wordt gefinetuned. Tijdens het finetunen stellen we een klasse-karakteriserende regularisatie voor om voorkennis over objectklassen te behouden. Om de getrouwheid verder te verbeteren, introduceren we een object-specifiek verlies, dat ook kan worden gebruikt om meerdere objecten te implanteren. Over het geheel genomen kan onze voorgestelde objectgerichte methode voor het implanteren van nieuwe objecten naadloos integreren met bestaande concepten, evenals met hoge getrouwheid en generalisatie. Onze methode presteert beter dan verschillende bestaande werken. De code zal worden vrijgegeven.
English
As large-scale text-to-image generation models have made remarkable progress
in the field of text-to-image generation, many fine-tuning methods have been
proposed. However, these models often struggle with novel objects, especially
with one-shot scenarios. Our proposed method aims to address the challenges of
generalizability and fidelity in an object-driven way, using only a single
input image and the object-specific regions of interest. To improve
generalizability and mitigate overfitting, in our paradigm, a prototypical
embedding is initialized based on the object's appearance and its class, before
fine-tuning the diffusion model. And during fine-tuning, we propose a
class-characterizing regularization to preserve prior knowledge of object
classes. To further improve fidelity, we introduce object-specific loss, which
can also use to implant multiple objects. Overall, our proposed object-driven
method for implanting new objects can integrate seamlessly with existing
concepts as well as with high fidelity and generalization. Our method
outperforms several existing works. The code will be released.