Ajuste fino impulsado por objetos en una sola toma de difusión de texto a imagen con incrustaciones prototípicas.

Resumen

A medida que los modelos de generación de texto a imagen a gran escala han logrado avances notables en el campo de la generación de texto a imagen, se han propuesto muchos métodos de ajuste fino. Sin embargo, estos modelos suelen tener dificultades con objetos novedosos, especialmente en escenarios de un solo ejemplo. Nuestro método propuesto busca abordar los desafíos de generalización y fidelidad de manera orientada a objetos, utilizando solo una imagen de entrada y las regiones de interés específicas del objeto. Para mejorar la generalización y mitigar el sobreajuste, en nuestro paradigma, se inicializa un embedding prototípico basado en la apariencia del objeto y su clase, antes de ajustar el modelo de difusión. Durante el ajuste fino, proponemos una regularización caracterizadora de clases para preservar el conocimiento previo de las clases de objetos. Para mejorar aún más la fidelidad, introducimos una pérdida específica del objeto, que también puede usarse para implantar múltiples objetos. En general, nuestro método orientado a objetos para implantar nuevos objetos puede integrarse sin problemas con conceptos existentes, además de ofrecer alta fidelidad y generalización. Nuestro método supera a varios trabajos existentes. El código será liberado.

English

As large-scale text-to-image generation models have made remarkable progress in the field of text-to-image generation, many fine-tuning methods have been proposed. However, these models often struggle with novel objects, especially with one-shot scenarios. Our proposed method aims to address the challenges of generalizability and fidelity in an object-driven way, using only a single input image and the object-specific regions of interest. To improve generalizability and mitigate overfitting, in our paradigm, a prototypical embedding is initialized based on the object's appearance and its class, before fine-tuning the diffusion model. And during fine-tuning, we propose a class-characterizing regularization to preserve prior knowledge of object classes. To further improve fidelity, we introduce object-specific loss, which can also use to implant multiple objects. Overall, our proposed object-driven method for implanting new objects can integrate seamlessly with existing concepts as well as with high fidelity and generalization. Our method outperforms several existing works. The code will be released.

Ajuste fino impulsado por objetos en una sola toma de difusión de texto a imagen con incrustaciones prototípicas.

Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding

Resumen

Support