ChatPaper.aiChatPaper

StoryMaker : Vers des personnages cohérents et holistiques dans la génération de texte vers image

StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation

September 19, 2024
Auteurs: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI

Résumé

Les méthodes de génération d'images personnalisées sans réglage ont connu un succès significatif en maintenant la cohérence faciale, c'est-à-dire les identités, même avec plusieurs personnages. Cependant, le manque de cohérence holistique dans les scènes avec plusieurs personnages entrave la capacité de ces méthodes à créer un récit cohérent. Dans cet article, nous présentons StoryMaker, une solution de personnalisation qui préserve non seulement la cohérence faciale, mais aussi la cohérence des vêtements, des coiffures et des corps, facilitant ainsi la création d'une histoire à travers une série d'images. StoryMaker intègre des conditions basées sur les identités faciales et les images de personnages recadrées, incluant les vêtements, les coiffures et les corps. Plus précisément, nous intégrons les informations d'identité faciale avec les images de personnages recadrées en utilisant le Rééchantillonneur Perceiver Sensible à la Position (PPR) pour obtenir des caractéristiques de personnage distinctes. Pour éviter le mélange de plusieurs personnages et de l'arrière-plan, nous contraignons séparément les régions d'impact de l'attention croisée des différents personnages et de l'arrière-plan en utilisant une perte MSE avec des masques de segmentation. De plus, nous entraînons le réseau de génération conditionné sur les poses pour favoriser le découplage des poses. Un LoRA est également utilisé pour améliorer la fidélité et la qualité. Les expériences soulignent l'efficacité de notre approche. StoryMaker prend en charge de nombreuses applications et est compatible avec d'autres extensions sociétales. Nos codes sources et nos poids de modèle sont disponibles sur https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant success in maintaining facial consistency, i.e., identities, even with multiple characters. However, the lack of holistic consistency in scenes with multiple characters hampers these methods' ability to create a cohesive narrative. In this paper, we introduce StoryMaker, a personalization solution that preserves not only facial consistency but also clothing, hairstyles, and body consistency, thus facilitating the creation of a story through a series of images. StoryMaker incorporates conditions based on face identities and cropped character images, which include clothing, hairstyles, and bodies. Specifically, we integrate the facial identity information with the cropped character images using the Positional-aware Perceiver Resampler (PPR) to obtain distinct character features. To prevent intermingling of multiple characters and the background, we separately constrain the cross-attention impact regions of different characters and the background using MSE loss with segmentation masks. Additionally, we train the generation network conditioned on poses to promote decoupling from poses. A LoRA is also employed to enhance fidelity and quality. Experiments underscore the effectiveness of our approach. StoryMaker supports numerous applications and is compatible with other societal plug-ins. Our source codes and model weights are available at https://github.com/RedAIGC/StoryMaker.

Summary

AI-Generated Summary

PDF162November 16, 2024