DreamTuner : Une seule image suffit pour la génération pilotée par un sujet

papers.abstract

Les modèles basés sur la diffusion ont démontré des capacités impressionnantes pour la génération d'images à partir de texte et sont prometteurs pour des applications personnalisées de génération pilotée par un sujet, qui nécessitent la création de concepts personnalisés à partir d'une ou de quelques images de référence. Cependant, les méthodes existantes basées sur le fine-tuning échouent à équilibrer le compromis entre l'apprentissage du sujet et le maintien des capacités de génération des modèles pré-entraînés. De plus, d'autres méthodes utilisant des encodeurs d'images supplémentaires ont tendance à perdre des détails importants du sujet en raison de la compression lors de l'encodage. Pour relever ces défis, nous proposons DreamTurner, une méthode novatrice qui injecte les informations de référence de manière grossière à fine pour réaliser la génération d'images pilotée par un sujet de manière plus efficace. DreamTurner introduit un encodeur de sujet pour préserver grossièrement l'identité du sujet, où les caractéristiques générales compressées du sujet sont introduites via une couche d'attention avant l'attention croisée visuo-textuelle. Nous modifions ensuite les couches d'auto-attention dans les modèles pré-entraînés de génération d'images à partir de texte en couches d'auto-attention sujet pour affiner les détails du sujet cible. L'image générée interroge les caractéristiques détaillées à la fois de l'image de référence et d'elle-même dans l'auto-attention sujet. Il est important de souligner que l'auto-attention sujet est une méthode efficace, élégante et sans entraînement pour maintenir les caractéristiques détaillées des sujets personnalisés et peut servir de solution plug-and-play lors de l'inférence. Enfin, avec un fine-tuning supplémentaire piloté par le sujet, DreamTurner atteint des performances remarquables dans la génération d'images pilotée par un sujet, qui peut être contrôlée par un texte ou d'autres conditions telles que la pose. Pour plus de détails, veuillez visiter la page du projet à l'adresse https://dreamtuner-diffusion.github.io/.

English

Diffusion-based models have demonstrated impressive capabilities for text-to-image generation and are expected for personalized applications of subject-driven generation, which require the generation of customized concepts with one or a few reference images. However, existing methods based on fine-tuning fail to balance the trade-off between subject learning and the maintenance of the generation capabilities of pretrained models. Moreover, other methods that utilize additional image encoders tend to lose important details of the subject due to encoding compression. To address these challenges, we propose DreamTurner, a novel method that injects reference information from coarse to fine to achieve subject-driven image generation more effectively. DreamTurner introduces a subject-encoder for coarse subject identity preservation, where the compressed general subject features are introduced through an attention layer before visual-text cross-attention. We then modify the self-attention layers within pretrained text-to-image models to self-subject-attention layers to refine the details of the target subject. The generated image queries detailed features from both the reference image and itself in self-subject-attention. It is worth emphasizing that self-subject-attention is an effective, elegant, and training-free method for maintaining the detailed features of customized subjects and can serve as a plug-and-play solution during inference. Finally, with additional subject-driven fine-tuning, DreamTurner achieves remarkable performance in subject-driven image generation, which can be controlled by a text or other conditions such as pose. For further details, please visit the project page at https://dreamtuner-diffusion.github.io/.

DreamTuner : Une seule image suffit pour la génération pilotée par un sujet

DreamTuner: Single Image is Enough for Subject-Driven Generation

papers.abstract

Support