ChatPaper.aiChatPaper

Ajuste Fino Dirigido por Objetos em Uma Única Etapa de Difusão de Texto para Imagem com Incorporação Prototípica

Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding

January 28, 2024
Autores: Jianxiang Lu, Cong Xie, Hui Guo
cs.AI

Resumo

À medida que os modelos de geração de texto para imagem em grande escala têm feito progressos notáveis no campo da geração de texto para imagem, muitos métodos de ajuste fino foram propostos. No entanto, esses modelos frequentemente enfrentam dificuldades com objetos novos, especialmente em cenários de "one-shot". Nosso método proposto visa abordar os desafios de generalização e fidelidade de maneira orientada a objetos, utilizando apenas uma única imagem de entrada e as regiões de interesse específicas do objeto. Para melhorar a generalização e mitigar o sobreajuste, em nosso paradigma, uma incorporação prototípica é inicializada com base na aparência do objeto e em sua classe, antes de ajustar o modelo de difusão. E durante o ajuste fino, propomos uma regularização de caracterização de classe para preservar o conhecimento prévio das classes de objetos. Para melhorar ainda mais a fidelidade, introduzimos uma perda específica do objeto, que também pode ser usada para implantar múltiplos objetos. No geral, nosso método orientado a objetos para implantar novos objetos pode se integrar perfeitamente com conceitos existentes, além de oferecer alta fidelidade e generalização. Nosso método supera vários trabalhos existentes. O código será liberado.
English
As large-scale text-to-image generation models have made remarkable progress in the field of text-to-image generation, many fine-tuning methods have been proposed. However, these models often struggle with novel objects, especially with one-shot scenarios. Our proposed method aims to address the challenges of generalizability and fidelity in an object-driven way, using only a single input image and the object-specific regions of interest. To improve generalizability and mitigate overfitting, in our paradigm, a prototypical embedding is initialized based on the object's appearance and its class, before fine-tuning the diffusion model. And during fine-tuning, we propose a class-characterizing regularization to preserve prior knowledge of object classes. To further improve fidelity, we introduce object-specific loss, which can also use to implant multiple objects. Overall, our proposed object-driven method for implanting new objects can integrate seamlessly with existing concepts as well as with high fidelity and generalization. Our method outperforms several existing works. The code will be released.
PDF123December 15, 2024