StoryMaker: К голистическим и последовательным персонажам в генерации текста в изображение
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
Авторы: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
Аннотация
Методы генерации персонализированных изображений без настройки достигли значительного успеха в поддержании согласованности лиц, то есть идентичности, даже при наличии нескольких персонажей. Однако отсутствие целостной согласованности в сценах с несколькими персонажами затрудняет способность этих методов создавать связное повествование. В данной статье мы представляем StoryMaker, решение по персонализации, которое сохраняет не только согласованность лиц, но также одежды, причесок и фигур, тем самым облегчая создание истории через серию изображений. StoryMaker включает условия на основе идентичности лиц и обрезанных изображений персонажей, включая одежду, прически и фигуры. Конкретно, мы интегрируем информацию об идентичности лиц с обрезанными изображениями персонажей, используя Ресэмплер с учетом позиции воспринимающего (PPR), чтобы получить отличительные черты персонажей. Для предотвращения смешивания нескольких персонажей и фона мы отдельно ограничиваем области влияния кросс-внимания различных персонажей и фона с использованием потерь MSE с масками сегментации. Кроме того, мы обучаем сеть генерации с учетом поз, чтобы способствовать разделению от поз. Также используется LoRA для улучшения достоверности и качества. Эксперименты подчеркивают эффективность нашего подхода. StoryMaker поддерживает множество приложений и совместим с другими общественными плагинами. Наши исходные коды и веса модели доступны по адресу https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary