StoryMaker : Vers des personnages cohérents et holistiques dans la génération de texte vers image
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
Auteurs: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
Résumé
Les méthodes de génération d'images personnalisées sans réglage ont connu un succès significatif en maintenant la cohérence faciale, c'est-à-dire les identités, même avec plusieurs personnages. Cependant, le manque de cohérence holistique dans les scènes avec plusieurs personnages entrave la capacité de ces méthodes à créer un récit cohérent. Dans cet article, nous présentons StoryMaker, une solution de personnalisation qui préserve non seulement la cohérence faciale, mais aussi la cohérence des vêtements, des coiffures et des corps, facilitant ainsi la création d'une histoire à travers une série d'images. StoryMaker intègre des conditions basées sur les identités faciales et les images de personnages recadrées, incluant les vêtements, les coiffures et les corps. Plus précisément, nous intégrons les informations d'identité faciale avec les images de personnages recadrées en utilisant le Rééchantillonneur Perceiver Sensible à la Position (PPR) pour obtenir des caractéristiques de personnage distinctes. Pour éviter le mélange de plusieurs personnages et de l'arrière-plan, nous contraignons séparément les régions d'impact de l'attention croisée des différents personnages et de l'arrière-plan en utilisant une perte MSE avec des masques de segmentation. De plus, nous entraînons le réseau de génération conditionné sur les poses pour favoriser le découplage des poses. Un LoRA est également utilisé pour améliorer la fidélité et la qualité. Les expériences soulignent l'efficacité de notre approche. StoryMaker prend en charge de nombreuses applications et est compatible avec d'autres extensions sociétales. Nos codes sources et nos poids de modèle sont disponibles sur https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary