TextBoost: К одноразовой персонализации моделей текст-к-изображению с помощью донастройки текстового кодировщика
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
September 12, 2024
Авторы: NaHyeon Park, Kunhee Kim, Hyunjung Shim
cs.AI
Аннотация
Недавние прорывы в моделях текст-в-изображение открыли многообещающие
исследовательские пути в персонализированной генерации изображений, позволяя пользователям создавать
разнообразные изображения конкретного объекта с использованием естественных языковых подсказок. Однако
существующие методы часто страдают от снижения производительности при наличии только одного
ссылочного изображения. Они имеют тенденцию переобучаться на входных данных, производя
высоко похожие результаты независимо от текстовой подсказки. В данной статье рассматривается
вызов персонализации с однократным применением путем смягчения переобучения, позволяя
создавать управляемые изображения через текстовые подсказки. Конкретно, мы предлагаем
стратегию селективного дообучения, сосредотачиваясь на текстовом кодировщике. Кроме того,
мы представляем три ключевые техники для улучшения производительности персонализации: (1)
аугментационные токены для поощрения дезентанглирования признаков и смягчения
переобучения, (2) потерю сохранения знаний для снижения языкового дрейфа и
продвижения обобщаемости по разнообразным подсказкам, и (3) взвешенную выборку
по отношению сигнал-шум для эффективного обучения. Обширные эксперименты демонстрируют, что
наш подход эффективно генерирует высококачественные, разнообразные изображения с использованием только
одного ссылочного изображения, существенно снижая требования к памяти и хранилищу.
English
Recent breakthroughs in text-to-image models have opened up promising
research avenues in personalized image generation, enabling users to create
diverse images of a specific subject using natural language prompts. However,
existing methods often suffer from performance degradation when given only a
single reference image. They tend to overfit the input, producing highly
similar outputs regardless of the text prompt. This paper addresses the
challenge of one-shot personalization by mitigating overfitting, enabling the
creation of controllable images through text prompts. Specifically, we propose
a selective fine-tuning strategy that focuses on the text encoder. Furthermore,
we introduce three key techniques to enhance personalization performance: (1)
augmentation tokens to encourage feature disentanglement and alleviate
overfitting, (2) a knowledge-preservation loss to reduce language drift and
promote generalizability across diverse prompts, and (3) SNR-weighted sampling
for efficient training. Extensive experiments demonstrate that our approach
efficiently generates high-quality, diverse images using only a single
reference image while significantly reducing memory and storage requirements.Summary
AI-Generated Summary