TextBoost : Vers la personnalisation en un seul coup des modèles texte-image via le réglage fin de l'encodeur de texte
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
September 12, 2024
Auteurs: NaHyeon Park, Kunhee Kim, Hyunjung Shim
cs.AI
Résumé
Les récentes avancées dans les modèles de conversion texte-image ont ouvert des perspectives de recherche prometteuses dans la génération d'images personnalisées, permettant aux utilisateurs de créer des images variées sur un sujet spécifique en utilisant des instructions en langage naturel. Cependant, les méthodes existantes souffrent souvent d'une dégradation des performances lorsqu'elles ne reçoivent qu'une seule image de référence. Elles ont tendance à surajuster l'entrée, produisant des sorties très similaires indépendamment de l'instruction textuelle. Cet article aborde le défi de la personnalisation en un seul exemple en atténuant le surajustement, permettant la création d'images contrôlables à travers des instructions textuelles. Plus précisément, nous proposons une stratégie de fine-tuning sélectif qui se concentre sur l'encodeur de texte. De plus, nous introduisons trois techniques clés pour améliorer les performances de personnalisation : (1) des jetons d'augmentation pour encourager la désentrelacement des caractéristiques et atténuer le surajustement, (2) une perte de préservation des connaissances pour réduire la dérive linguistique et favoriser la généralisabilité à travers des instructions variées, et (3) un échantillonnage pondéré par SNR pour un entraînement efficace. Des expériences approfondies démontrent que notre approche génère efficacement des images diverses et de haute qualité en n'utilisant qu'une seule image de référence tout en réduisant significativement les besoins en mémoire et en stockage.
English
Recent breakthroughs in text-to-image models have opened up promising
research avenues in personalized image generation, enabling users to create
diverse images of a specific subject using natural language prompts. However,
existing methods often suffer from performance degradation when given only a
single reference image. They tend to overfit the input, producing highly
similar outputs regardless of the text prompt. This paper addresses the
challenge of one-shot personalization by mitigating overfitting, enabling the
creation of controllable images through text prompts. Specifically, we propose
a selective fine-tuning strategy that focuses on the text encoder. Furthermore,
we introduce three key techniques to enhance personalization performance: (1)
augmentation tokens to encourage feature disentanglement and alleviate
overfitting, (2) a knowledge-preservation loss to reduce language drift and
promote generalizability across diverse prompts, and (3) SNR-weighted sampling
for efficient training. Extensive experiments demonstrate that our approach
efficiently generates high-quality, diverse images using only a single
reference image while significantly reducing memory and storage requirements.Summary
AI-Generated Summary