StoryMaker: Naar Holistische Consistente Karakters in Tekst-naar-afbeelding Generatie
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
Auteurs: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
Samenvatting
Tuning-vrije gepersonaliseerde beeldgeneratiemethoden hebben aanzienlijk succes behaald in het behouden van gezichtsconsistentie, dat wil zeggen, identiteiten, zelfs met meerdere personages. Echter, het gebrek aan holistische consistentie in scènes met meerdere personages belemmert het vermogen van deze methoden om een samenhangend verhaal te creëren. In dit artikel introduceren we StoryMaker, een personalisatie-oplossing die niet alleen gezichtsconsistentie behoudt, maar ook kleding, kapsels en lichaamsconsistentie, waardoor de creatie van een verhaal door middel van een reeks afbeeldingen wordt vergemakkelijkt. StoryMaker omvat voorwaarden gebaseerd op gezichtsidentiteiten en bijgesneden karakterafbeeldingen, die kleding, kapsels en lichamen omvatten. Specifiek integreren we de gezichtsidentiteitsinformatie met de bijgesneden karakterafbeeldingen met behulp van de Positional-aware Perceiver Resampler (PPR) om onderscheidende karaktereigenschappen te verkrijgen. Om vermenging van meerdere personages en de achtergrond te voorkomen, beperken we afzonderlijk de impactgebieden van kruislingse aandacht van verschillende personages en de achtergrond met MSE-verlies met segmentatiemaskers. Daarnaast trainen we het generatienetwerk geconditioneerd op poses om ontkoppeling van poses te bevorderen. Een LoRA wordt ook ingezet om de trouw en kwaliteit te verbeteren. Experimenten benadrukken de effectiviteit van onze aanpak. StoryMaker ondersteunt tal van toepassingen en is compatibel met andere maatschappelijke plug-ins. Onze broncodes en modelgewichten zijn beschikbaar op https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary