DreamTuner : Une seule image suffit pour la génération pilotée par un sujet
DreamTuner: Single Image is Enough for Subject-Driven Generation
December 21, 2023
Auteurs: Miao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He
cs.AI
Résumé
Les modèles basés sur la diffusion ont démontré des capacités impressionnantes pour la génération d'images à partir de texte et sont prometteurs pour des applications personnalisées de génération pilotée par un sujet, qui nécessitent la création de concepts personnalisés à partir d'une ou de quelques images de référence. Cependant, les méthodes existantes basées sur le fine-tuning échouent à équilibrer le compromis entre l'apprentissage du sujet et le maintien des capacités de génération des modèles pré-entraînés. De plus, d'autres méthodes utilisant des encodeurs d'images supplémentaires ont tendance à perdre des détails importants du sujet en raison de la compression lors de l'encodage. Pour relever ces défis, nous proposons DreamTurner, une méthode novatrice qui injecte les informations de référence de manière grossière à fine pour réaliser la génération d'images pilotée par un sujet de manière plus efficace. DreamTurner introduit un encodeur de sujet pour préserver grossièrement l'identité du sujet, où les caractéristiques générales compressées du sujet sont introduites via une couche d'attention avant l'attention croisée visuo-textuelle. Nous modifions ensuite les couches d'auto-attention dans les modèles pré-entraînés de génération d'images à partir de texte en couches d'auto-attention sujet pour affiner les détails du sujet cible. L'image générée interroge les caractéristiques détaillées à la fois de l'image de référence et d'elle-même dans l'auto-attention sujet. Il est important de souligner que l'auto-attention sujet est une méthode efficace, élégante et sans entraînement pour maintenir les caractéristiques détaillées des sujets personnalisés et peut servir de solution plug-and-play lors de l'inférence. Enfin, avec un fine-tuning supplémentaire piloté par le sujet, DreamTurner atteint des performances remarquables dans la génération d'images pilotée par un sujet, qui peut être contrôlée par un texte ou d'autres conditions telles que la pose. Pour plus de détails, veuillez visiter la page du projet à l'adresse https://dreamtuner-diffusion.github.io/.
English
Diffusion-based models have demonstrated impressive capabilities for
text-to-image generation and are expected for personalized applications of
subject-driven generation, which require the generation of customized concepts
with one or a few reference images. However, existing methods based on
fine-tuning fail to balance the trade-off between subject learning and the
maintenance of the generation capabilities of pretrained models. Moreover,
other methods that utilize additional image encoders tend to lose important
details of the subject due to encoding compression. To address these
challenges, we propose DreamTurner, a novel method that injects reference
information from coarse to fine to achieve subject-driven image generation more
effectively. DreamTurner introduces a subject-encoder for coarse subject
identity preservation, where the compressed general subject features are
introduced through an attention layer before visual-text cross-attention. We
then modify the self-attention layers within pretrained text-to-image models to
self-subject-attention layers to refine the details of the target subject. The
generated image queries detailed features from both the reference image and
itself in self-subject-attention. It is worth emphasizing that
self-subject-attention is an effective, elegant, and training-free method for
maintaining the detailed features of customized subjects and can serve as a
plug-and-play solution during inference. Finally, with additional
subject-driven fine-tuning, DreamTurner achieves remarkable performance in
subject-driven image generation, which can be controlled by a text or other
conditions such as pose. For further details, please visit the project page at
https://dreamtuner-diffusion.github.io/.