ChatPaper.aiChatPaper

Réglage fin en une seule étape piloté par objet pour la diffusion texte-image avec intégration prototypique

Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding

January 28, 2024
Auteurs: Jianxiang Lu, Cong Xie, Hui Guo
cs.AI

Résumé

Alors que les modèles de génération d'images à partir de texte à grande échelle ont réalisé des progrès remarquables dans le domaine de la génération d'images à partir de texte, de nombreuses méthodes de fine-tuning ont été proposées. Cependant, ces modèles rencontrent souvent des difficultés avec les objets nouveaux, en particulier dans des scénarios one-shot. Notre méthode proposée vise à relever les défis de la généralisation et de la fidélité de manière orientée objet, en utilisant uniquement une seule image d'entrée et les régions d'intérêt spécifiques à l'objet. Pour améliorer la généralisation et atténuer le surapprentissage, dans notre paradigme, un embedding prototypique est initialisé en fonction de l'apparence de l'objet et de sa classe, avant de procéder au fine-tuning du modèle de diffusion. Et pendant le fine-tuning, nous proposons une régularisation caractérisant la classe pour préserver les connaissances antérieures sur les classes d'objets. Pour améliorer encore la fidélité, nous introduisons une perte spécifique à l'objet, qui peut également être utilisée pour implanter plusieurs objets. Globalement, notre méthode orientée objet pour l'implantation de nouveaux objets peut s'intégrer de manière transparente avec les concepts existants tout en offrant une grande fidélité et généralisation. Notre méthode surpasse plusieurs travaux existants. Le code sera publié.
English
As large-scale text-to-image generation models have made remarkable progress in the field of text-to-image generation, many fine-tuning methods have been proposed. However, these models often struggle with novel objects, especially with one-shot scenarios. Our proposed method aims to address the challenges of generalizability and fidelity in an object-driven way, using only a single input image and the object-specific regions of interest. To improve generalizability and mitigate overfitting, in our paradigm, a prototypical embedding is initialized based on the object's appearance and its class, before fine-tuning the diffusion model. And during fine-tuning, we propose a class-characterizing regularization to preserve prior knowledge of object classes. To further improve fidelity, we introduce object-specific loss, which can also use to implant multiple objects. Overall, our proposed object-driven method for implanting new objects can integrate seamlessly with existing concepts as well as with high fidelity and generalization. Our method outperforms several existing works. The code will be released.
PDF123December 15, 2024