TextBoost: Naar Eénmalige Personalisatie van Tekst-naar-Afbeelding Modellen via Fijnafstemming van Tekst Encoder
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
September 12, 2024
Auteurs: NaHyeon Park, Kunhee Kim, Hyunjung Shim
cs.AI
Samenvatting
Recente doorbraken in tekst-naar-afbeelding modellen hebben veelbelovende onderzoeksrichtingen geopend in gepersonaliseerde afbeeldingsgeneratie, waardoor gebruikers diverse afbeeldingen van een specifiek onderwerp kunnen maken met behulp van natuurlijke taal aanwijzingen. Echter, bestaande methoden hebben vaak last van prestatievermindering wanneer slechts één referentieafbeelding wordt gegeven. Ze hebben de neiging om zich te veel aan te passen aan de invoer, waardoor ze zeer vergelijkbare resultaten produceren ongeacht de tekst aanwijzing. Dit artikel richt zich op de uitdaging van personalisatie met één opname door overaanpassing te verminderen, waardoor de creatie van controleerbare afbeeldingen via tekst aanwijzingen mogelijk wordt. Specifiek stellen we een selectieve fijnafstemmingsstrategie voor die zich richt op de tekstencoder. Bovendien introduceren we drie belangrijke technieken om de prestaties van personalisatie te verbeteren: (1) augmentatietokens om kenmerkontvlechting aan te moedigen en overaanpassing te verlichten, (2) een kennisbehoudverlies om taalafwijking te verminderen en generaliseerbaarheid over diverse aanwijzingen te bevorderen, en (3) SNR-gewogen bemonstering voor efficiënte training. Uitgebreide experimenten tonen aan dat onze aanpak efficiënt hoogwaardige, diverse afbeeldingen genereert met slechts één referentieafbeelding, terwijl geheugen- en opslagvereisten aanzienlijk worden verminderd.
English
Recent breakthroughs in text-to-image models have opened up promising
research avenues in personalized image generation, enabling users to create
diverse images of a specific subject using natural language prompts. However,
existing methods often suffer from performance degradation when given only a
single reference image. They tend to overfit the input, producing highly
similar outputs regardless of the text prompt. This paper addresses the
challenge of one-shot personalization by mitigating overfitting, enabling the
creation of controllable images through text prompts. Specifically, we propose
a selective fine-tuning strategy that focuses on the text encoder. Furthermore,
we introduce three key techniques to enhance personalization performance: (1)
augmentation tokens to encourage feature disentanglement and alleviate
overfitting, (2) a knowledge-preservation loss to reduce language drift and
promote generalizability across diverse prompts, and (3) SNR-weighted sampling
for efficient training. Extensive experiments demonstrate that our approach
efficiently generates high-quality, diverse images using only a single
reference image while significantly reducing memory and storage requirements.Summary
AI-Generated Summary