Mejora de la Preservación de Detalles para la Generación Personalizada de Imágenes a partir de Texto: Un Enfoque Libre de Regularización

Resumen

Los modelos recientes de generación de imágenes a partir de texto han demostrado una capacidad impresionante para generar imágenes alineadas con el texto y de alta fidelidad. Sin embargo, generar imágenes de conceptos novedosos proporcionados por una imagen de entrada del usuario sigue siendo una tarea desafiante. Para abordar este problema, los investigadores han estado explorando diversos métodos para personalizar modelos preentrenados de generación de imágenes a partir de texto. Actualmente, la mayoría de los métodos existentes para personalizar estos modelos implican el uso de técnicas de regularización para evitar el sobreajuste. Si bien la regularización facilita el desafío de la personalización y conduce a la creación exitosa de contenido en relación con la guía del texto, puede restringir la capacidad del modelo, lo que resulta en la pérdida de información detallada y un rendimiento inferior. En este trabajo, proponemos un marco novedoso para la generación personalizada de imágenes a partir de texto sin el uso de regularización. Específicamente, nuestro marco propuesto consta de una red codificadora y un nuevo método de muestreo que puede abordar el problema de sobreajuste sin necesidad de regularización. Con el marco propuesto, podemos personalizar un modelo de generación de imágenes a partir de texto a gran escala en menos de medio minuto en una sola GPU, utilizando solo una imagen proporcionada por el usuario. Demostramos en experimentos que nuestro marco propuesto supera a los métodos existentes y preserva más detalles finos.

English

Recent text-to-image generation models have demonstrated impressive capability of generating text-aligned images with high fidelity. However, generating images of novel concept provided by the user input image is still a challenging task. To address this problem, researchers have been exploring various methods for customizing pre-trained text-to-image generation models. Currently, most existing methods for customizing pre-trained text-to-image generation models involve the use of regularization techniques to prevent over-fitting. While regularization will ease the challenge of customization and leads to successful content creation with respect to text guidance, it may restrict the model capability, resulting in the loss of detailed information and inferior performance. In this work, we propose a novel framework for customized text-to-image generation without the use of regularization. Specifically, our proposed framework consists of an encoder network and a novel sampling method which can tackle the over-fitting problem without the use of regularization. With the proposed framework, we are able to customize a large-scale text-to-image generation model within half a minute on single GPU, with only one image provided by the user. We demonstrate in experiments that our proposed framework outperforms existing methods, and preserves more fine-grained details.

Mejora de la Preservación de Detalles para la Generación Personalizada de Imágenes a partir de Texto: Un Enfoque Libre de Regularización

Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach

Resumen

Support