ChatPaper.aiChatPaper

DreamTuner: Una sola imagen es suficiente para la generación guiada por sujetos

DreamTuner: Single Image is Enough for Subject-Driven Generation

December 21, 2023
Autores: Miao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He
cs.AI

Resumen

Los modelos basados en difusión han demostrado capacidades impresionantes para la generación de imágenes a partir de texto y se espera que sean útiles en aplicaciones personalizadas de generación guiada por sujetos, las cuales requieren la creación de conceptos personalizados con una o pocas imágenes de referencia. Sin embargo, los métodos existentes basados en ajuste fino no logran equilibrar la relación entre el aprendizaje del sujeto y el mantenimiento de las capacidades de generación de los modelos preentrenados. Además, otros métodos que utilizan codificadores de imágenes adicionales tienden a perder detalles importantes del sujeto debido a la compresión en la codificación. Para abordar estos desafíos, proponemos DreamTurner, un método novedoso que inyecta información de referencia de manera gradual, de lo general a lo específico, para lograr una generación de imágenes guiada por sujetos de manera más efectiva. DreamTurner introduce un codificador de sujetos para preservar la identidad general del sujeto, donde las características comprimidas del sujeto se incorporan a través de una capa de atención antes de la atención cruzada visual-texto. Luego, modificamos las capas de auto-atención dentro de los modelos preentrenados de texto a imagen para convertirlas en capas de auto-atención de sujeto, refinando así los detalles del sujeto objetivo. La imagen generada consulta características detalladas tanto de la imagen de referencia como de sí misma en la auto-atención de sujeto. Es importante enfatizar que la auto-atención de sujeto es un método efectivo, elegante y libre de entrenamiento para mantener las características detalladas de sujetos personalizados, y puede servir como una solución plug-and-play durante la inferencia. Finalmente, con un ajuste fino adicional guiado por el sujeto, DreamTurner logra un rendimiento notable en la generación de imágenes guiada por sujetos, la cual puede ser controlada por texto u otras condiciones como la pose. Para más detalles, visite la página del proyecto en https://dreamtuner-diffusion.github.io/.
English
Diffusion-based models have demonstrated impressive capabilities for text-to-image generation and are expected for personalized applications of subject-driven generation, which require the generation of customized concepts with one or a few reference images. However, existing methods based on fine-tuning fail to balance the trade-off between subject learning and the maintenance of the generation capabilities of pretrained models. Moreover, other methods that utilize additional image encoders tend to lose important details of the subject due to encoding compression. To address these challenges, we propose DreamTurner, a novel method that injects reference information from coarse to fine to achieve subject-driven image generation more effectively. DreamTurner introduces a subject-encoder for coarse subject identity preservation, where the compressed general subject features are introduced through an attention layer before visual-text cross-attention. We then modify the self-attention layers within pretrained text-to-image models to self-subject-attention layers to refine the details of the target subject. The generated image queries detailed features from both the reference image and itself in self-subject-attention. It is worth emphasizing that self-subject-attention is an effective, elegant, and training-free method for maintaining the detailed features of customized subjects and can serve as a plug-and-play solution during inference. Finally, with additional subject-driven fine-tuning, DreamTurner achieves remarkable performance in subject-driven image generation, which can be controlled by a text or other conditions such as pose. For further details, please visit the project page at https://dreamtuner-diffusion.github.io/.
PDF286December 15, 2024