ChatPaper.aiChatPaper

AnyStory : Vers une personnalisation unifiée des sujets uniques et multiples dans la génération de texte vers image.

AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation

January 16, 2025
Auteurs: Junjie He, Yuxiang Tuo, Binghui Chen, Chongyang Zhong, Yifeng Geng, Liefeng Bo
cs.AI

Résumé

Récemment, les modèles génératifs à grande échelle ont démontré des capacités exceptionnelles en génération de texte vers image. Cependant, la génération d'images personnalisées de haute qualité avec des sujets spécifiques présente encore des défis, notamment dans les cas impliquant plusieurs sujets. Dans cet article, nous proposons AnyStory, une approche unifiée pour la génération de sujets personnalisés. AnyStory atteint non seulement une personnalisation de haute qualité pour des sujets uniques, mais également pour plusieurs sujets, sans compromettre la fidélité des sujets. Plus précisément, AnyStory modélise le problème de personnalisation de sujet de manière "encoder-puis-router". Dans l'étape d'encodage, AnyStory utilise un encodeur d'image universel et puissant, c'est-à-dire ReferenceNet, en conjonction avec l'encodeur vision CLIP pour obtenir un encodage de haute qualité des caractéristiques du sujet. Dans l'étape de routage, AnyStory utilise un routeur de sujet conscient de l'instance pour percevoir et prédire avec précision l'emplacement potentiel du sujet correspondant dans l'espace latent, et guider l'injection des conditions du sujet. Les résultats expérimentaux détaillés démontrent l'excellente performance de notre méthode en termes de conservation des détails du sujet, d'alignement des descriptions textuelles et de personnalisation pour plusieurs sujets. La page du projet se trouve à l'adresse https://aigcdesigngroup.github.io/AnyStory/.
English
Recently, large-scale generative models have demonstrated outstanding text-to-image generation capabilities. However, generating high-fidelity personalized images with specific subjects still presents challenges, especially in cases involving multiple subjects. In this paper, we propose AnyStory, a unified approach for personalized subject generation. AnyStory not only achieves high-fidelity personalization for single subjects, but also for multiple subjects, without sacrificing subject fidelity. Specifically, AnyStory models the subject personalization problem in an "encode-then-route" manner. In the encoding step, AnyStory utilizes a universal and powerful image encoder, i.e., ReferenceNet, in conjunction with CLIP vision encoder to achieve high-fidelity encoding of subject features. In the routing step, AnyStory utilizes a decoupled instance-aware subject router to accurately perceive and predict the potential location of the corresponding subject in the latent space, and guide the injection of subject conditions. Detailed experimental results demonstrate the excellent performance of our method in retaining subject details, aligning text descriptions, and personalizing for multiple subjects. The project page is at https://aigcdesigngroup.github.io/AnyStory/ .

Summary

AI-Generated Summary

PDF132January 17, 2025