ChatPaper.aiChatPaper

StoryMaker: Rumo a Personagens Coerentes e Holísticas na Geração de Texto-para-Imagem

StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation

September 19, 2024
Autores: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI

Resumo

Métodos de geração de imagens personalizadas sem ajuste alcançaram um sucesso significativo em manter a consistência facial, ou seja, identidades, mesmo com múltiplos personagens. No entanto, a falta de consistência holística em cenas com vários personagens prejudica a capacidade desses métodos de criar uma narrativa coesa. Neste artigo, apresentamos o StoryMaker, uma solução de personalização que preserva não apenas a consistência facial, mas também a consistência de roupas, penteados e corpos, facilitando assim a criação de uma história por meio de uma série de imagens. O StoryMaker incorpora condições baseadas em identidades faciais e imagens de personagens recortados, que incluem roupas, penteados e corpos. Especificamente, integramos as informações de identidade facial com as imagens de personagens recortados usando o Resampler Perceiver Consciente da Posição (PPR) para obter características de personagens distintas. Para evitar a mistura de múltiplos personagens e o fundo, restringimos separadamente as regiões de impacto de atenção cruzada de diferentes personagens e do fundo usando perdas MSE com máscaras de segmentação. Além disso, treinamos a rede de geração condicionada em poses para promover o desacoplamento das poses. Um LoRA também é empregado para melhorar a fidelidade e qualidade. Experimentos destacam a eficácia de nossa abordagem. O StoryMaker suporta inúmeras aplicações e é compatível com outros plug-ins sociais. Nossos códigos-fonte e pesos do modelo estão disponíveis em https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant success in maintaining facial consistency, i.e., identities, even with multiple characters. However, the lack of holistic consistency in scenes with multiple characters hampers these methods' ability to create a cohesive narrative. In this paper, we introduce StoryMaker, a personalization solution that preserves not only facial consistency but also clothing, hairstyles, and body consistency, thus facilitating the creation of a story through a series of images. StoryMaker incorporates conditions based on face identities and cropped character images, which include clothing, hairstyles, and bodies. Specifically, we integrate the facial identity information with the cropped character images using the Positional-aware Perceiver Resampler (PPR) to obtain distinct character features. To prevent intermingling of multiple characters and the background, we separately constrain the cross-attention impact regions of different characters and the background using MSE loss with segmentation masks. Additionally, we train the generation network conditioned on poses to promote decoupling from poses. A LoRA is also employed to enhance fidelity and quality. Experiments underscore the effectiveness of our approach. StoryMaker supports numerous applications and is compatible with other societal plug-ins. Our source codes and model weights are available at https://github.com/RedAIGC/StoryMaker.

Summary

AI-Generated Summary

PDF162November 16, 2024