DreamTuner: Uma Única Imagem é Suficiente para Geração Orientada por Assunto

Resumo

Modelos baseados em difusão têm demonstrado capacidades impressionantes para geração de imagens a partir de texto e são esperados para aplicações personalizadas de geração orientada por sujeitos, que exigem a criação de conceitos customizados com uma ou poucas imagens de referência. No entanto, os métodos existentes baseados em ajuste fino falham em equilibrar a relação entre o aprendizado do sujeito e a manutenção das capacidades de geração dos modelos pré-treinados. Além disso, outros métodos que utilizam codificadores de imagem adicionais tendem a perder detalhes importantes do sujeito devido à compressão da codificação. Para enfrentar esses desafios, propomos o DreamTurner, um método novo que injeta informações de referência de forma gradual, do geral ao detalhado, para alcançar a geração de imagens orientada por sujeito de maneira mais eficaz. O DreamTurner introduz um codificador de sujeito para preservar a identidade geral do sujeito, onde as características gerais comprimidas do sujeito são introduzidas por meio de uma camada de atenção antes da atenção cruzada visual-texto. Em seguida, modificamos as camadas de auto-atenção dentro dos modelos pré-treinados de texto para imagem para camadas de auto-atenção do sujeito, a fim de refinar os detalhes do sujeito alvo. A imagem gerada consulta características detalhadas tanto da imagem de referência quanto de si mesma na auto-atenção do sujeito. Vale enfatizar que a auto-atenção do sujeito é um método eficaz, elegante e sem necessidade de treinamento para manter as características detalhadas de sujeitos customizados e pode servir como uma solução plug-and-play durante a inferência. Por fim, com um ajuste fino adicional orientado por sujeito, o DreamTurner alcança um desempenho notável na geração de imagens orientada por sujeito, que pode ser controlada por texto ou outras condições, como pose. Para mais detalhes, visite a página do projeto em https://dreamtuner-diffusion.github.io/.

English

Diffusion-based models have demonstrated impressive capabilities for text-to-image generation and are expected for personalized applications of subject-driven generation, which require the generation of customized concepts with one or a few reference images. However, existing methods based on fine-tuning fail to balance the trade-off between subject learning and the maintenance of the generation capabilities of pretrained models. Moreover, other methods that utilize additional image encoders tend to lose important details of the subject due to encoding compression. To address these challenges, we propose DreamTurner, a novel method that injects reference information from coarse to fine to achieve subject-driven image generation more effectively. DreamTurner introduces a subject-encoder for coarse subject identity preservation, where the compressed general subject features are introduced through an attention layer before visual-text cross-attention. We then modify the self-attention layers within pretrained text-to-image models to self-subject-attention layers to refine the details of the target subject. The generated image queries detailed features from both the reference image and itself in self-subject-attention. It is worth emphasizing that self-subject-attention is an effective, elegant, and training-free method for maintaining the detailed features of customized subjects and can serve as a plug-and-play solution during inference. Finally, with additional subject-driven fine-tuning, DreamTurner achieves remarkable performance in subject-driven image generation, which can be controlled by a text or other conditions such as pose. For further details, please visit the project page at https://dreamtuner-diffusion.github.io/.

DreamTuner: Uma Única Imagem é Suficiente para Geração Orientada por Assunto

DreamTuner: Single Image is Enough for Subject-Driven Generation

Resumo

Support