AnyStory : Vers une personnalisation unifiée des sujets uniques et multiples dans la génération de texte vers image.
AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation
January 16, 2025
Auteurs: Junjie He, Yuxiang Tuo, Binghui Chen, Chongyang Zhong, Yifeng Geng, Liefeng Bo
cs.AI
Résumé
Récemment, les modèles génératifs à grande échelle ont démontré des capacités exceptionnelles en génération de texte vers image. Cependant, la génération d'images personnalisées de haute qualité avec des sujets spécifiques présente encore des défis, notamment dans les cas impliquant plusieurs sujets. Dans cet article, nous proposons AnyStory, une approche unifiée pour la génération de sujets personnalisés. AnyStory atteint non seulement une personnalisation de haute qualité pour des sujets uniques, mais également pour plusieurs sujets, sans compromettre la fidélité des sujets. Plus précisément, AnyStory modélise le problème de personnalisation de sujet de manière "encoder-puis-router". Dans l'étape d'encodage, AnyStory utilise un encodeur d'image universel et puissant, c'est-à-dire ReferenceNet, en conjonction avec l'encodeur vision CLIP pour obtenir un encodage de haute qualité des caractéristiques du sujet. Dans l'étape de routage, AnyStory utilise un routeur de sujet conscient de l'instance pour percevoir et prédire avec précision l'emplacement potentiel du sujet correspondant dans l'espace latent, et guider l'injection des conditions du sujet. Les résultats expérimentaux détaillés démontrent l'excellente performance de notre méthode en termes de conservation des détails du sujet, d'alignement des descriptions textuelles et de personnalisation pour plusieurs sujets. La page du projet se trouve à l'adresse https://aigcdesigngroup.github.io/AnyStory/.
English
Recently, large-scale generative models have demonstrated outstanding
text-to-image generation capabilities. However, generating high-fidelity
personalized images with specific subjects still presents challenges,
especially in cases involving multiple subjects. In this paper, we propose
AnyStory, a unified approach for personalized subject generation. AnyStory not
only achieves high-fidelity personalization for single subjects, but also for
multiple subjects, without sacrificing subject fidelity. Specifically, AnyStory
models the subject personalization problem in an "encode-then-route" manner. In
the encoding step, AnyStory utilizes a universal and powerful image encoder,
i.e., ReferenceNet, in conjunction with CLIP vision encoder to achieve
high-fidelity encoding of subject features. In the routing step, AnyStory
utilizes a decoupled instance-aware subject router to accurately perceive and
predict the potential location of the corresponding subject in the latent
space, and guide the injection of subject conditions. Detailed experimental
results demonstrate the excellent performance of our method in retaining
subject details, aligning text descriptions, and personalizing for multiple
subjects. The project page is at https://aigcdesigngroup.github.io/AnyStory/ .Summary
AI-Generated Summary