ChatPaper.aiChatPaper

TextBoost: Hacia la Personalización de Modelos de Texto a Imagen en una Sola Iteración a Través del Ajuste Fino del Codificador de Texto

TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder

September 12, 2024
Autores: NaHyeon Park, Kunhee Kim, Hyunjung Shim
cs.AI

Resumen

Los avances recientes en modelos de texto a imagen han abierto prometedores caminos de investigación en la generación de imágenes personalizadas, permitiendo a los usuarios crear imágenes diversas de un tema específico utilizando indicaciones en lenguaje natural. Sin embargo, los métodos existentes a menudo sufren de degradación de rendimiento al recibir solo una imagen de referencia. Tienden a ajustarse demasiado a la entrada, produciendo salidas altamente similares independientemente de la indicación de texto. Este artículo aborda el desafío de la personalización de una sola toma al mitigar el sobreajuste, permitiendo la creación de imágenes controlables a través de indicaciones de texto. Específicamente, proponemos una estrategia de ajuste fino selectivo que se enfoca en el codificador de texto. Además, introducimos tres técnicas clave para mejorar el rendimiento de personalización: (1) tokens de aumento para fomentar la desentrelazación de características y aliviar el sobreajuste, (2) una pérdida de preservación de conocimiento para reducir la deriva del lenguaje y promover la generalización en diversas indicaciones, y (3) muestreo ponderado por SNR para un entrenamiento eficiente. Experimentos extensos demuestran que nuestro enfoque genera eficientemente imágenes diversas y de alta calidad utilizando solo una imagen de referencia, al tiempo que reduce significativamente los requisitos de memoria y almacenamiento.
English
Recent breakthroughs in text-to-image models have opened up promising research avenues in personalized image generation, enabling users to create diverse images of a specific subject using natural language prompts. However, existing methods often suffer from performance degradation when given only a single reference image. They tend to overfit the input, producing highly similar outputs regardless of the text prompt. This paper addresses the challenge of one-shot personalization by mitigating overfitting, enabling the creation of controllable images through text prompts. Specifically, we propose a selective fine-tuning strategy that focuses on the text encoder. Furthermore, we introduce three key techniques to enhance personalization performance: (1) augmentation tokens to encourage feature disentanglement and alleviate overfitting, (2) a knowledge-preservation loss to reduce language drift and promote generalizability across diverse prompts, and (3) SNR-weighted sampling for efficient training. Extensive experiments demonstrate that our approach efficiently generates high-quality, diverse images using only a single reference image while significantly reducing memory and storage requirements.

Summary

AI-Generated Summary

PDF164November 16, 2024