TextBoost : Vers la personnalisation en un seul coup des modèles texte-image via le réglage fin de l'encodeur de texte

papers.abstract

Les récentes avancées dans les modèles de conversion texte-image ont ouvert des perspectives de recherche prometteuses dans la génération d'images personnalisées, permettant aux utilisateurs de créer des images variées sur un sujet spécifique en utilisant des instructions en langage naturel. Cependant, les méthodes existantes souffrent souvent d'une dégradation des performances lorsqu'elles ne reçoivent qu'une seule image de référence. Elles ont tendance à surajuster l'entrée, produisant des sorties très similaires indépendamment de l'instruction textuelle. Cet article aborde le défi de la personnalisation en un seul exemple en atténuant le surajustement, permettant la création d'images contrôlables à travers des instructions textuelles. Plus précisément, nous proposons une stratégie de fine-tuning sélectif qui se concentre sur l'encodeur de texte. De plus, nous introduisons trois techniques clés pour améliorer les performances de personnalisation : (1) des jetons d'augmentation pour encourager la désentrelacement des caractéristiques et atténuer le surajustement, (2) une perte de préservation des connaissances pour réduire la dérive linguistique et favoriser la généralisabilité à travers des instructions variées, et (3) un échantillonnage pondéré par SNR pour un entraînement efficace. Des expériences approfondies démontrent que notre approche génère efficacement des images diverses et de haute qualité en n'utilisant qu'une seule image de référence tout en réduisant significativement les besoins en mémoire et en stockage.

English

Recent breakthroughs in text-to-image models have opened up promising research avenues in personalized image generation, enabling users to create diverse images of a specific subject using natural language prompts. However, existing methods often suffer from performance degradation when given only a single reference image. They tend to overfit the input, producing highly similar outputs regardless of the text prompt. This paper addresses the challenge of one-shot personalization by mitigating overfitting, enabling the creation of controllable images through text prompts. Specifically, we propose a selective fine-tuning strategy that focuses on the text encoder. Furthermore, we introduce three key techniques to enhance personalization performance: (1) augmentation tokens to encourage feature disentanglement and alleviate overfitting, (2) a knowledge-preservation loss to reduce language drift and promote generalizability across diverse prompts, and (3) SNR-weighted sampling for efficient training. Extensive experiments demonstrate that our approach efficiently generates high-quality, diverse images using only a single reference image while significantly reducing memory and storage requirements.

TextBoost : Vers la personnalisation en un seul coup des modèles texte-image via le réglage fin de l'encodeur de texte

TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder

papers.abstract

Support