StoryMaker: Hacia Personajes Coherentes y Holísticos en la Generación de Texto a Imagen
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
Autores: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
Resumen
Los métodos de generación de imágenes personalizadas sin ajuste han logrado un éxito significativo en mantener la consistencia facial, es decir, las identidades, incluso con múltiples personajes. Sin embargo, la falta de consistencia holística en escenas con múltiples personajes obstaculiza la capacidad de estos métodos para crear una narrativa cohesiva. En este artículo, presentamos StoryMaker, una solución de personalización que preserva no solo la consistencia facial, sino también la ropa, peinados y la consistencia corporal, facilitando así la creación de una historia a través de una serie de imágenes. StoryMaker incorpora condiciones basadas en identidades faciales e imágenes de personajes recortados, que incluyen ropa, peinados y cuerpos. Específicamente, integramos la información de identidad facial con las imágenes de personajes recortados utilizando el Muestreador Perceptivo Consciente de la Posición (PPR) para obtener características de personajes distintas. Para evitar la mezcla de múltiples personajes y el fondo, restringimos por separado las regiones de impacto de atención cruzada de diferentes personajes y el fondo utilizando pérdida MSE con máscaras de segmentación. Además, entrenamos la red de generación condicionada a poses para promover el desacoplamiento de las poses. También se emplea un LoRA para mejorar la fidelidad y calidad. Los experimentos destacan la efectividad de nuestro enfoque. StoryMaker soporta numerosas aplicaciones y es compatible con otros complementos sociales. Nuestros códigos fuente y pesos del modelo están disponibles en https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary