TextBoost: Rumo à Personalização em Única Etapa de Modelos de Texto-para-Imagem via Ajuste Fino do Codificador de Texto
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
September 12, 2024
Autores: NaHyeon Park, Kunhee Kim, Hyunjung Shim
cs.AI
Resumo
Avanços recentes em modelos de texto para imagem abriram caminho para promissores caminhos de pesquisa na geração de imagens personalizadas, permitindo que os usuários criem imagens diversas de um assunto específico usando instruções em linguagem natural. No entanto, os métodos existentes frequentemente sofrem de degradação de desempenho quando fornecidos apenas com uma única imagem de referência. Eles tendem a se ajustar demais à entrada, produzindo saídas altamente similares independentemente da instrução de texto. Este artigo aborda o desafio da personalização em uma única tentativa, mitigando o ajuste excessivo, possibilitando a criação de imagens controláveis por meio de instruções de texto. Especificamente, propomos uma estratégia de ajuste fino seletivo que se concentra no codificador de texto. Além disso, introduzimos três técnicas-chave para melhorar o desempenho da personalização: (1) tokens de aumento para incentivar a desentrelaçamento de características e aliviar o ajuste excessivo, (2) uma perda de preservação de conhecimento para reduzir a deriva linguística e promover a generalização em diversas instruções, e (3) amostragem ponderada por SNR para treinamento eficiente. Experimentos extensos demonstram que nossa abordagem gera eficientemente imagens diversas e de alta qualidade usando apenas uma única imagem de referência, ao mesmo tempo que reduz significativamente os requisitos de memória e armazenamento.
English
Recent breakthroughs in text-to-image models have opened up promising
research avenues in personalized image generation, enabling users to create
diverse images of a specific subject using natural language prompts. However,
existing methods often suffer from performance degradation when given only a
single reference image. They tend to overfit the input, producing highly
similar outputs regardless of the text prompt. This paper addresses the
challenge of one-shot personalization by mitigating overfitting, enabling the
creation of controllable images through text prompts. Specifically, we propose
a selective fine-tuning strategy that focuses on the text encoder. Furthermore,
we introduce three key techniques to enhance personalization performance: (1)
augmentation tokens to encourage feature disentanglement and alleviate
overfitting, (2) a knowledge-preservation loss to reduce language drift and
promote generalizability across diverse prompts, and (3) SNR-weighted sampling
for efficient training. Extensive experiments demonstrate that our approach
efficiently generates high-quality, diverse images using only a single
reference image while significantly reducing memory and storage requirements.Summary
AI-Generated Summary