DreamTuner: Uma Única Imagem é Suficiente para Geração Orientada por Assunto
DreamTuner: Single Image is Enough for Subject-Driven Generation
December 21, 2023
Autores: Miao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He
cs.AI
Resumo
Modelos baseados em difusão têm demonstrado capacidades impressionantes para geração de imagens a partir de texto e são esperados para aplicações personalizadas de geração orientada por sujeitos, que exigem a criação de conceitos customizados com uma ou poucas imagens de referência. No entanto, os métodos existentes baseados em ajuste fino falham em equilibrar a relação entre o aprendizado do sujeito e a manutenção das capacidades de geração dos modelos pré-treinados. Além disso, outros métodos que utilizam codificadores de imagem adicionais tendem a perder detalhes importantes do sujeito devido à compressão da codificação. Para enfrentar esses desafios, propomos o DreamTurner, um método novo que injeta informações de referência de forma gradual, do geral ao detalhado, para alcançar a geração de imagens orientada por sujeito de maneira mais eficaz. O DreamTurner introduz um codificador de sujeito para preservar a identidade geral do sujeito, onde as características gerais comprimidas do sujeito são introduzidas por meio de uma camada de atenção antes da atenção cruzada visual-texto. Em seguida, modificamos as camadas de auto-atenção dentro dos modelos pré-treinados de texto para imagem para camadas de auto-atenção do sujeito, a fim de refinar os detalhes do sujeito alvo. A imagem gerada consulta características detalhadas tanto da imagem de referência quanto de si mesma na auto-atenção do sujeito. Vale enfatizar que a auto-atenção do sujeito é um método eficaz, elegante e sem necessidade de treinamento para manter as características detalhadas de sujeitos customizados e pode servir como uma solução plug-and-play durante a inferência. Por fim, com um ajuste fino adicional orientado por sujeito, o DreamTurner alcança um desempenho notável na geração de imagens orientada por sujeito, que pode ser controlada por texto ou outras condições, como pose. Para mais detalhes, visite a página do projeto em https://dreamtuner-diffusion.github.io/.
English
Diffusion-based models have demonstrated impressive capabilities for
text-to-image generation and are expected for personalized applications of
subject-driven generation, which require the generation of customized concepts
with one or a few reference images. However, existing methods based on
fine-tuning fail to balance the trade-off between subject learning and the
maintenance of the generation capabilities of pretrained models. Moreover,
other methods that utilize additional image encoders tend to lose important
details of the subject due to encoding compression. To address these
challenges, we propose DreamTurner, a novel method that injects reference
information from coarse to fine to achieve subject-driven image generation more
effectively. DreamTurner introduces a subject-encoder for coarse subject
identity preservation, where the compressed general subject features are
introduced through an attention layer before visual-text cross-attention. We
then modify the self-attention layers within pretrained text-to-image models to
self-subject-attention layers to refine the details of the target subject. The
generated image queries detailed features from both the reference image and
itself in self-subject-attention. It is worth emphasizing that
self-subject-attention is an effective, elegant, and training-free method for
maintaining the detailed features of customized subjects and can serve as a
plug-and-play solution during inference. Finally, with additional
subject-driven fine-tuning, DreamTurner achieves remarkable performance in
subject-driven image generation, which can be controlled by a text or other
conditions such as pose. For further details, please visit the project page at
https://dreamtuner-diffusion.github.io/.