StoryMaker: Verso personaggi coerenti ed olistici nella generazione di testo-immagine
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
September 19, 2024
Autori: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang
cs.AI
Abstract
I metodi di generazione di immagini personalizzate senza sintonizzazione hanno ottenuto un notevole successo nel mantenere la coerenza facciale, ossia le identità, anche con più personaggi. Tuttavia, la mancanza di coerenza olistica in scene con più personaggi ostacola la capacità di questi metodi di creare una narrazione coesa. In questo articolo, presentiamo StoryMaker, una soluzione di personalizzazione che preserva non solo la coerenza facciale, ma anche quella degli abiti, delle acconciature e dei corpi, facilitando così la creazione di una storia attraverso una serie di immagini. StoryMaker incorpora condizioni basate sulle identità facciali e sulle immagini dei personaggi ritagliati, che includono abiti, acconciature e corpi. In particolare, integriamo le informazioni sull'identità facciale con le immagini dei personaggi ritagliati utilizzando il Positional-aware Perceiver Resampler (PPR) per ottenere caratteristiche distintive dei personaggi. Per evitare l'interferenza di più personaggi e dello sfondo, vincoliamo separatamente le regioni di impatto della cross-attenzione dei diversi personaggi e dello sfondo utilizzando la perdita MSE con maschere di segmentazione. Inoltre, addestriamo la rete di generazione condizionata sulle pose per favorire lo scollegamento dalle pose. Viene inoltre impiegato un LoRA per migliorare la fedeltà e la qualità. Gli esperimenti sottolineano l'efficacia del nostro approccio. StoryMaker supporta numerose applicazioni ed è compatibile con altri plug-in sociali. I nostri codici sorgente e i pesi del modello sono disponibili su https://github.com/RedAIGC/StoryMaker.
English
Tuning-free personalized image generation methods have achieved significant
success in maintaining facial consistency, i.e., identities, even with multiple
characters. However, the lack of holistic consistency in scenes with multiple
characters hampers these methods' ability to create a cohesive narrative. In
this paper, we introduce StoryMaker, a personalization solution that preserves
not only facial consistency but also clothing, hairstyles, and body
consistency, thus facilitating the creation of a story through a series of
images. StoryMaker incorporates conditions based on face identities and cropped
character images, which include clothing, hairstyles, and bodies. Specifically,
we integrate the facial identity information with the cropped character images
using the Positional-aware Perceiver Resampler (PPR) to obtain distinct
character features. To prevent intermingling of multiple characters and the
background, we separately constrain the cross-attention impact regions of
different characters and the background using MSE loss with segmentation masks.
Additionally, we train the generation network conditioned on poses to promote
decoupling from poses. A LoRA is also employed to enhance fidelity and quality.
Experiments underscore the effectiveness of our approach. StoryMaker supports
numerous applications and is compatible with other societal plug-ins. Our
source codes and model weights are available at
https://github.com/RedAIGC/StoryMaker.Summary
AI-Generated Summary