Imaginez ceci : Génération d'Images Personnalisées sans RéglageImagine yourself: Tuning-Free Personalized Image Generation
Les modèles de diffusion ont démontré une efficacité remarquable dans diverses tâches d'image à image. Dans cette recherche, nous présentons Imagine yourself, un modèle de pointe conçu pour la génération d'images personnalisées. Contrairement aux techniques de personnalisation basées sur l'ajustement conventionnel, Imagine yourself fonctionne comme un modèle sans réglage, permettant à tous les utilisateurs de tirer parti d'un cadre partagé sans ajustements individualisés. De plus, les travaux précédents ont rencontré des défis pour équilibrer la préservation de l'identité, suivre des instructions complexes et préserver une bonne qualité visuelle, ce qui a conduit à des modèles ayant un fort effet de copier-coller des images de référence. Ainsi, ils peuvent difficilement générer des images suivant des instructions nécessitant des changements significatifs par rapport à l'image de référence, par exemple, changer l'expression faciale, les poses de tête et de corps, et la diversité des images générées est faible. Pour remédier à ces limitations, notre méthode proposée introduit 1) un nouveau mécanisme de génération de données appariées synthétiques pour encourager la diversité des images, 2) une architecture d'attention entièrement parallèle avec trois codeurs de texte et un codeur de vision entièrement entraînable pour améliorer la fidélité du texte, et 3) une nouvelle méthodologie de finetuning multi-étapes grossière à fine qui pousse progressivement les limites de la qualité visuelle. Notre étude démontre qu'Imagine yourself surpasse le modèle de personnalisation de pointe, présentant des capacités supérieures en termes de préservation de l'identité, de qualité visuelle et d'alignement du texte. Ce modèle établit une base solide pour diverses applications de personnalisation. Les résultats de l'évaluation humaine valident la supériorité SOTA du modèle sur tous les aspects (préservation de l'identité, fidélité du texte et attrait visuel) par rapport aux modèles de personnalisation précédents.