StoryMaker: К голистическим и последовательным персонажам в генерации текста в изображение

Аннотация

Методы генерации персонализированных изображений без настройки достигли значительного успеха в поддержании согласованности лиц, то есть идентичности, даже при наличии нескольких персонажей. Однако отсутствие целостной согласованности в сценах с несколькими персонажами затрудняет способность этих методов создавать связное повествование. В данной статье мы представляем StoryMaker, решение по персонализации, которое сохраняет не только согласованность лиц, но также одежды, причесок и фигур, тем самым облегчая создание истории через серию изображений. StoryMaker включает условия на основе идентичности лиц и обрезанных изображений персонажей, включая одежду, прически и фигуры. Конкретно, мы интегрируем информацию об идентичности лиц с обрезанными изображениями персонажей, используя Ресэмплер с учетом позиции воспринимающего (PPR), чтобы получить отличительные черты персонажей. Для предотвращения смешивания нескольких персонажей и фона мы отдельно ограничиваем области влияния кросс-внимания различных персонажей и фона с использованием потерь MSE с масками сегментации. Кроме того, мы обучаем сеть генерации с учетом поз, чтобы способствовать разделению от поз. Также используется LoRA для улучшения достоверности и качества. Эксперименты подчеркивают эффективность нашего подхода. StoryMaker поддерживает множество приложений и совместим с другими общественными плагинами. Наши исходные коды и веса модели доступны по адресу https://github.com/RedAIGC/StoryMaker.

English

Tuning-free personalized image generation methods have achieved significant success in maintaining facial consistency, i.e., identities, even with multiple characters. However, the lack of holistic consistency in scenes with multiple characters hampers these methods' ability to create a cohesive narrative. In this paper, we introduce StoryMaker, a personalization solution that preserves not only facial consistency but also clothing, hairstyles, and body consistency, thus facilitating the creation of a story through a series of images. StoryMaker incorporates conditions based on face identities and cropped character images, which include clothing, hairstyles, and bodies. Specifically, we integrate the facial identity information with the cropped character images using the Positional-aware Perceiver Resampler (PPR) to obtain distinct character features. To prevent intermingling of multiple characters and the background, we separately constrain the cross-attention impact regions of different characters and the background using MSE loss with segmentation masks. Additionally, we train the generation network conditioned on poses to promote decoupling from poses. A LoRA is also employed to enhance fidelity and quality. Experiments underscore the effectiveness of our approach. StoryMaker supports numerous applications and is compatible with other societal plug-ins. Our source codes and model weights are available at https://github.com/RedAIGC/StoryMaker.

StoryMaker: К голистическим и последовательным персонажам в генерации текста в изображение

StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation

Аннотация

Support