Mejora de la Preservación de Detalles para la Generación Personalizada de Imágenes a partir de Texto: Un Enfoque Libre de Regularización
Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach
May 23, 2023
Autores: Yufan Zhou, Ruiyi Zhang, Tong Sun, Jinhui Xu
cs.AI
Resumen
Los modelos recientes de generación de imágenes a partir de texto han demostrado una capacidad impresionante para generar imágenes alineadas con el texto y de alta fidelidad. Sin embargo, generar imágenes de conceptos novedosos proporcionados por una imagen de entrada del usuario sigue siendo una tarea desafiante. Para abordar este problema, los investigadores han estado explorando diversos métodos para personalizar modelos preentrenados de generación de imágenes a partir de texto. Actualmente, la mayoría de los métodos existentes para personalizar estos modelos implican el uso de técnicas de regularización para evitar el sobreajuste. Si bien la regularización facilita el desafío de la personalización y conduce a la creación exitosa de contenido en relación con la guía del texto, puede restringir la capacidad del modelo, lo que resulta en la pérdida de información detallada y un rendimiento inferior. En este trabajo, proponemos un marco novedoso para la generación personalizada de imágenes a partir de texto sin el uso de regularización. Específicamente, nuestro marco propuesto consta de una red codificadora y un nuevo método de muestreo que puede abordar el problema de sobreajuste sin necesidad de regularización. Con el marco propuesto, podemos personalizar un modelo de generación de imágenes a partir de texto a gran escala en menos de medio minuto en una sola GPU, utilizando solo una imagen proporcionada por el usuario. Demostramos en experimentos que nuestro marco propuesto supera a los métodos existentes y preserva más detalles finos.
English
Recent text-to-image generation models have demonstrated impressive
capability of generating text-aligned images with high fidelity. However,
generating images of novel concept provided by the user input image is still a
challenging task. To address this problem, researchers have been exploring
various methods for customizing pre-trained text-to-image generation models.
Currently, most existing methods for customizing pre-trained text-to-image
generation models involve the use of regularization techniques to prevent
over-fitting. While regularization will ease the challenge of customization and
leads to successful content creation with respect to text guidance, it may
restrict the model capability, resulting in the loss of detailed information
and inferior performance. In this work, we propose a novel framework for
customized text-to-image generation without the use of regularization.
Specifically, our proposed framework consists of an encoder network and a novel
sampling method which can tackle the over-fitting problem without the use of
regularization. With the proposed framework, we are able to customize a
large-scale text-to-image generation model within half a minute on single GPU,
with only one image provided by the user. We demonstrate in experiments that
our proposed framework outperforms existing methods, and preserves more
fine-grained details.