Imaginez ceci : Génération d'Images Personnalisées sans Réglage
Imagine yourself: Tuning-Free Personalized Image Generation
September 20, 2024
Auteurs: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI
Résumé
Les modèles de diffusion ont démontré une efficacité remarquable dans diverses tâches d'image à image. Dans cette recherche, nous présentons Imagine yourself, un modèle de pointe conçu pour la génération d'images personnalisées. Contrairement aux techniques de personnalisation basées sur l'ajustement conventionnel, Imagine yourself fonctionne comme un modèle sans réglage, permettant à tous les utilisateurs de tirer parti d'un cadre partagé sans ajustements individualisés. De plus, les travaux précédents ont rencontré des défis pour équilibrer la préservation de l'identité, suivre des instructions complexes et préserver une bonne qualité visuelle, ce qui a conduit à des modèles ayant un fort effet de copier-coller des images de référence. Ainsi, ils peuvent difficilement générer des images suivant des instructions nécessitant des changements significatifs par rapport à l'image de référence, par exemple, changer l'expression faciale, les poses de tête et de corps, et la diversité des images générées est faible. Pour remédier à ces limitations, notre méthode proposée introduit 1) un nouveau mécanisme de génération de données appariées synthétiques pour encourager la diversité des images, 2) une architecture d'attention entièrement parallèle avec trois codeurs de texte et un codeur de vision entièrement entraînable pour améliorer la fidélité du texte, et 3) une nouvelle méthodologie de finetuning multi-étapes grossière à fine qui pousse progressivement les limites de la qualité visuelle. Notre étude démontre qu'Imagine yourself surpasse le modèle de personnalisation de pointe, présentant des capacités supérieures en termes de préservation de l'identité, de qualité visuelle et d'alignement du texte. Ce modèle établit une base solide pour diverses applications de personnalisation. Les résultats de l'évaluation humaine valident la supériorité SOTA du modèle sur tous les aspects (préservation de l'identité, fidélité du texte et attrait visuel) par rapport aux modèles de personnalisation précédents.
English
Diffusion models have demonstrated remarkable efficacy across various
image-to-image tasks. In this research, we introduce Imagine yourself, a
state-of-the-art model designed for personalized image generation. Unlike
conventional tuning-based personalization techniques, Imagine yourself operates
as a tuning-free model, enabling all users to leverage a shared framework
without individualized adjustments. Moreover, previous work met challenges
balancing identity preservation, following complex prompts and preserving good
visual quality, resulting in models having strong copy-paste effect of the
reference images. Thus, they can hardly generate images following prompts that
require significant changes to the reference image, \eg, changing facial
expression, head and body poses, and the diversity of the generated images is
low. To address these limitations, our proposed method introduces 1) a new
synthetic paired data generation mechanism to encourage image diversity, 2) a
fully parallel attention architecture with three text encoders and a fully
trainable vision encoder to improve the text faithfulness, and 3) a novel
coarse-to-fine multi-stage finetuning methodology that gradually pushes the
boundary of visual quality. Our study demonstrates that Imagine yourself
surpasses the state-of-the-art personalization model, exhibiting superior
capabilities in identity preservation, visual quality, and text alignment. This
model establishes a robust foundation for various personalization applications.
Human evaluation results validate the model's SOTA superiority across all
aspects (identity preservation, text faithfulness, and visual appeal) compared
to the previous personalization models.Summary
AI-Generated Summary