StoryMaker: Auf dem Weg zu ganzheitlich konsistenten Charakteren in der Text-zu-Bild-Generierung
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
Autoren: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
Zusammenfassung
Tuning-freie personalisierte Bildgenerierungsmethoden haben signifikante Erfolge bei der Aufrechterhaltung der Gesichtskonsistenz, d. h. der Identitäten, auch bei mehreren Charakteren erzielt. Allerdings behindert der Mangel an ganzheitlicher Konsistenz in Szenen mit mehreren Charakteren die Fähigkeit dieser Methoden, eine zusammenhängende Erzählung zu erstellen. In diesem Paper stellen wir StoryMaker vor, eine Personalisierungslösung, die nicht nur die Gesichtskonsistenz, sondern auch die Kleidung, Frisuren und Körperkonsistenz bewahrt und somit die Erstellung einer Geschichte durch eine Serie von Bildern erleichtert. StoryMaker integriert Bedingungen basierend auf Gesichtsidentitäten und zugeschnittenen Charakterbildern, die Kleidung, Frisuren und Körper umfassen. Speziell integrieren wir die Gesichtsidentitätsinformationen mit den zugeschnittenen Charakterbildern unter Verwendung des Positional-aware Perceiver Resamplers (PPR), um unterschiedliche Charaktermerkmale zu erhalten. Um Vermischung von mehreren Charakteren und dem Hintergrund zu verhindern, beschränken wir separat die Kreuz-Aufmerksamkeits-Impaktbereiche verschiedener Charaktere und des Hintergrunds unter Verwendung von MSE-Verlust mit Segmentierungsmasken. Zusätzlich trainieren wir das Generierungsnetzwerk bedingt auf Posen, um die Entkopplung von Posen zu fördern. Ein LoRA wird ebenfalls eingesetzt, um die Treue und Qualität zu verbessern. Experimente unterstreichen die Wirksamkeit unseres Ansatzes. StoryMaker unterstützt zahlreiche Anwendungen und ist mit anderen gesellschaftlichen Plug-Ins kompatibel. Unsere Quellcodes und Modellgewichte sind verfügbar unter https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary