TextBoost: Verso la personalizzazione in un'unica iterazione dei modelli di testo-immagine tramite il raffinamento dell'encoder di testo
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
September 12, 2024
Autori: NaHyeon Park, Kunhee Kim, Hyunjung Shim
cs.AI
Abstract
Recenti avanzamenti nei modelli di testo-immagine hanno aperto promettenti vie di ricerca nella generazione personalizzata di immagini, consentendo agli utenti di creare immagini diverse su un soggetto specifico utilizzando suggerimenti di linguaggio naturale. Tuttavia, i metodi esistenti spesso soffrono di degrado delle prestazioni quando viene fornita solo un'immagine di riferimento. Tendono a sovradattarsi all'input, producendo output altamente simili indipendentemente dal suggerimento di testo. Questo articolo affronta la sfida della personalizzazione in un'unica iterazione mitigando l'overfitting, consentendo la creazione di immagini controllabili attraverso suggerimenti di testo. In particolare, proponiamo una strategia di raffinamento selettivo che si concentra sull'encoder di testo. Inoltre, introduciamo tre tecniche chiave per migliorare le prestazioni di personalizzazione: (1) token di augmentazione per incoraggiare lo svincolamento delle caratteristiche e alleviare l'overfitting, (2) una perdita di conservazione della conoscenza per ridurre la deriva del linguaggio e promuovere la generalizzabilità tra diversi suggerimenti, e (3) campionamento pesato per SNR per un addestramento efficiente. Estesi esperimenti dimostrano che il nostro approccio genera efficientemente immagini di alta qualità e diverse utilizzando solo un'immagine di riferimento, riducendo significativamente i requisiti di memoria e archiviazione.
English
Recent breakthroughs in text-to-image models have opened up promising
research avenues in personalized image generation, enabling users to create
diverse images of a specific subject using natural language prompts. However,
existing methods often suffer from performance degradation when given only a
single reference image. They tend to overfit the input, producing highly
similar outputs regardless of the text prompt. This paper addresses the
challenge of one-shot personalization by mitigating overfitting, enabling the
creation of controllable images through text prompts. Specifically, we propose
a selective fine-tuning strategy that focuses on the text encoder. Furthermore,
we introduce three key techniques to enhance personalization performance: (1)
augmentation tokens to encourage feature disentanglement and alleviate
overfitting, (2) a knowledge-preservation loss to reduce language drift and
promote generalizability across diverse prompts, and (3) SNR-weighted sampling
for efficient training. Extensive experiments demonstrate that our approach
efficiently generates high-quality, diverse images using only a single
reference image while significantly reducing memory and storage requirements.Summary
AI-Generated Summary