TextBoost: Auf dem Weg zur Personalisierung von Text-zu-Bild-Modellen mit nur einem Schritt durch Feinabstimmung des Textencoders
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
September 12, 2024
Autoren: NaHyeon Park, Kunhee Kim, Hyunjung Shim
cs.AI
Zusammenfassung
Neueste Durchbrüche in Text-zu-Bild-Modellen haben vielversprechende Forschungswege in der personalisierten Bildgenerierung eröffnet, die es Benutzern ermöglichen, vielfältige Bilder eines bestimmten Themas mithilfe natürlicher Sprachanweisungen zu erstellen. Allerdings leiden bestehende Methoden oft unter Leistungsabfall, wenn nur ein einzelnes Referenzbild bereitgestellt wird. Sie neigen dazu, sich zu stark an die Eingabe anzupassen und produzieren sehr ähnliche Ergebnisse unabhängig von der Textanweisung. Dieser Artikel befasst sich mit der Herausforderung der Personalisierung mit nur einer Aufnahme, indem er das Überanpassungsproblem mildert und die Erstellung steuerbarer Bilder durch Textanweisungen ermöglicht. Konkret schlagen wir eine selektive Feinabstimmungsstrategie vor, die sich auf den Text-Encoder konzentriert. Darüber hinaus führen wir drei Schlüsseltechniken ein, um die Personalisierungsleistung zu verbessern: (1) Augmentierungstoken zur Förderung der Merkmalsentflechtung und zur Linderung von Überanpassung, (2) einen Wissensbewahrungsverlust zur Reduzierung von Sprachdrift und zur Förderung der Verallgemeinerung über verschiedene Anweisungen hinweg und (3) SNR-gewichtete Abtastung für effizientes Training. Umfangreiche Experimente zeigen, dass unser Ansatz hochwertige, vielfältige Bilder effizient generiert, wenn nur ein einzelnes Referenzbild verwendet wird, wobei gleichzeitig der Speicher- und Speicherplatzbedarf signifikant reduziert wird.
English
Recent breakthroughs in text-to-image models have opened up promising
research avenues in personalized image generation, enabling users to create
diverse images of a specific subject using natural language prompts. However,
existing methods often suffer from performance degradation when given only a
single reference image. They tend to overfit the input, producing highly
similar outputs regardless of the text prompt. This paper addresses the
challenge of one-shot personalization by mitigating overfitting, enabling the
creation of controllable images through text prompts. Specifically, we propose
a selective fine-tuning strategy that focuses on the text encoder. Furthermore,
we introduce three key techniques to enhance personalization performance: (1)
augmentation tokens to encourage feature disentanglement and alleviate
overfitting, (2) a knowledge-preservation loss to reduce language drift and
promote generalizability across diverse prompts, and (3) SNR-weighted sampling
for efficient training. Extensive experiments demonstrate that our approach
efficiently generates high-quality, diverse images using only a single
reference image while significantly reducing memory and storage requirements.Summary
AI-Generated Summary