StoryMaker: Rumo a Personagens Coerentes e Holísticas na Geração de Texto-para-Imagem
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
Autores: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
Resumo
Métodos de geração de imagens personalizadas sem ajuste alcançaram um sucesso significativo em manter a consistência facial, ou seja, identidades, mesmo com múltiplos personagens. No entanto, a falta de consistência holística em cenas com vários personagens prejudica a capacidade desses métodos de criar uma narrativa coesa. Neste artigo, apresentamos o StoryMaker, uma solução de personalização que preserva não apenas a consistência facial, mas também a consistência de roupas, penteados e corpos, facilitando assim a criação de uma história por meio de uma série de imagens. O StoryMaker incorpora condições baseadas em identidades faciais e imagens de personagens recortados, que incluem roupas, penteados e corpos. Especificamente, integramos as informações de identidade facial com as imagens de personagens recortados usando o Resampler Perceiver Consciente da Posição (PPR) para obter características de personagens distintas. Para evitar a mistura de múltiplos personagens e o fundo, restringimos separadamente as regiões de impacto de atenção cruzada de diferentes personagens e do fundo usando perdas MSE com máscaras de segmentação. Além disso, treinamos a rede de geração condicionada em poses para promover o desacoplamento das poses. Um LoRA também é empregado para melhorar a fidelidade e qualidade. Experimentos destacam a eficácia de nossa abordagem. O StoryMaker suporta inúmeras aplicações e é compatível com outros plug-ins sociais. Nossos códigos-fonte e pesos do modelo estão disponíveis em https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary