Text-to-Sticker : Personnalisation stylistique des modèles de diffusion latente pour l'expression humaine
Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression
November 17, 2023
Auteurs: Animesh Sinha, Bo Sun, Anmol Kalia, Arantxa Casanova, Elliot Blanchard, David Yan, Winnie Zhang, Tony Nelli, Jiahui Chen, Hardik Shah, Licheng Yu, Mitesh Kumar Singh, Ankit Ramchandani, Maziar Sanjabi, Sonal Gupta, Amy Bearman, Dhruv Mahajan
cs.AI
Résumé
Nous présentons Style Tailoring, une méthode pour affiner les modèles de diffusion latente (LDMs) dans un domaine spécifique tout en garantissant une qualité visuelle élevée, un alignement sur les prompts et une diversité des scènes. Nous choisissons la génération d'images de stickers comme domaine cible, car ces images diffèrent significativement des échantillons photoréalistes typiquement générés par les LDMs à grande échelle. Nous partons d'un modèle compétent de texte-à-image, comme Emu, et montrons que s'appuyer sur l'ingénierie des prompts avec un modèle photoréaliste pour générer des stickers conduit à un mauvais alignement sur les prompts et une faible diversité des scènes. Pour surmonter ces limites, nous affinons d'abord Emu sur des millions d'images ressemblant à des stickers collectées en utilisant une supervision faible pour susciter la diversité. Ensuite, nous créons des ensembles de données d'Alignement et de Style avec intervention humaine (HITL) à partir des générations du modèle, et affinons pour améliorer respectivement l'alignement sur les prompts et l'alignement stylistique. L'affinage séquentiel sur ces ensembles de données pose un compromis entre un meilleur alignement stylistique et les gains en alignement sur les prompts. Pour résoudre ce compromis, nous proposons une nouvelle méthode d'affinage appelée Style Tailoring, qui ajuste conjointement la distribution du contenu et du style et atteint le meilleur compromis. Les résultats d'évaluation montrent que notre méthode améliore la qualité visuelle de 14 %, l'alignement sur les prompts de 16,2 % et la diversité des scènes de 15,3 %, par rapport à l'ingénierie des prompts appliquée au modèle Emu de base pour la génération de stickers.
English
We introduce Style Tailoring, a recipe to finetune Latent Diffusion Models
(LDMs) in a distinct domain with high visual quality, prompt alignment and
scene diversity. We choose sticker image generation as the target domain, as
the images significantly differ from photorealistic samples typically generated
by large-scale LDMs. We start with a competent text-to-image model, like Emu,
and show that relying on prompt engineering with a photorealistic model to
generate stickers leads to poor prompt alignment and scene diversity. To
overcome these drawbacks, we first finetune Emu on millions of sticker-like
images collected using weak supervision to elicit diversity. Next, we curate
human-in-the-loop (HITL) Alignment and Style datasets from model generations,
and finetune to improve prompt alignment and style alignment respectively.
Sequential finetuning on these datasets poses a tradeoff between better style
alignment and prompt alignment gains. To address this tradeoff, we propose a
novel fine-tuning method called Style Tailoring, which jointly fits the content
and style distribution and achieves best tradeoff. Evaluation results show our
method improves visual quality by 14%, prompt alignment by 16.2% and scene
diversity by 15.3%, compared to prompt engineering the base Emu model for
stickers generation.