StoryMaker: テキストから画像への生成において、包括的で一貫したキャラクターに向けて
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
著者: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
要旨
チューニング不要の個人用画像生成手法は、複数のキャラクターでも顔の一貫性、つまりアイデンティティを維持することで大きな成功を収めています。ただし、複数のキャラクターが登場するシーンにおいて全体的な一貫性が欠如することで、これらの手法が一貫した物語を作成する能力が阻害されます。本論文では、顔の一貫性だけでなく、服装、髪型、体の一貫性も保持し、画像の連続を通じて物語を作成することを容易にする個人化ソリューションであるStoryMakerを紹介します。StoryMakerは、顔のアイデンティティと服装、髪型、体を含む切り取られたキャラクター画像に基づく条件を組み込んでいます。具体的には、Positional-aware Perceiver Resampler(PPR)を使用して、顔のアイデンティティ情報を切り取られたキャラクター画像と統合し、独自のキャラクター特徴を取得します。複数のキャラクターや背景との相互の干渉を防ぐために、異なるキャラクターと背景のクロスアテンション影響領域をMSE損失とセグメンテーションマスクを用いて別々に制約します。さらに、ポーズに基づいて条件付けられた生成ネットワークをトレーニングして、ポーズからの分離を促進します。LoRAも品質と忠実度を向上させるために使用されています。実験は、当社の手法の有効性を裏付けています。StoryMakerは多くのアプリケーションをサポートし、他の社会的なプラグインと互換性があります。当社のソースコードとモデルの重みは、https://github.com/RedAIGC/StoryMaker で入手可能です。
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary