ChatPaper.aiChatPaper

Text-to-Sticker: Adaptación de Estilos en Modelos de Difusión Latente para la Expresión Humana

Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression

November 17, 2023
Autores: Animesh Sinha, Bo Sun, Anmol Kalia, Arantxa Casanova, Elliot Blanchard, David Yan, Winnie Zhang, Tony Nelli, Jiahui Chen, Hardik Shah, Licheng Yu, Mitesh Kumar Singh, Ankit Ramchandani, Maziar Sanjabi, Sonal Gupta, Amy Bearman, Dhruv Mahajan
cs.AI

Resumen

Presentamos Style Tailoring, una metodología para ajustar finamente Modelos de Difusión Latente (LDMs) en un dominio específico con alta calidad visual, alineación de indicaciones y diversidad de escenas. Elegimos la generación de imágenes de pegatinas como el dominio objetivo, ya que estas imágenes difieren significativamente de las muestras fotorrealistas típicamente generadas por LDMs a gran escala. Comenzamos con un modelo competente de texto a imagen, como Emu, y demostramos que depender de la ingeniería de indicaciones con un modelo fotorrealista para generar pegatinas resulta en una pobre alineación de indicaciones y diversidad de escenas. Para superar estos inconvenientes, primero ajustamos finamente Emu en millones de imágenes similares a pegatinas recolectadas utilizando supervisión débil para fomentar la diversidad. Luego, seleccionamos conjuntos de datos de Alineación y Estilo con intervención humana (HITL) a partir de generaciones del modelo, y ajustamos finamente para mejorar la alineación de indicaciones y la alineación de estilo, respectivamente. El ajuste secuencial en estos conjuntos de datos presenta un equilibrio entre una mejor alineación de estilo y las ganancias en alineación de indicaciones. Para abordar este equilibrio, proponemos un nuevo método de ajuste fino llamado Style Tailoring, que ajusta conjuntamente la distribución de contenido y estilo y logra el mejor equilibrio. Los resultados de evaluación muestran que nuestro método mejora la calidad visual en un 14%, la alineación de indicaciones en un 16.2% y la diversidad de escenas en un 15.3%, en comparación con la ingeniería de indicaciones en el modelo base Emu para la generación de pegatinas.
English
We introduce Style Tailoring, a recipe to finetune Latent Diffusion Models (LDMs) in a distinct domain with high visual quality, prompt alignment and scene diversity. We choose sticker image generation as the target domain, as the images significantly differ from photorealistic samples typically generated by large-scale LDMs. We start with a competent text-to-image model, like Emu, and show that relying on prompt engineering with a photorealistic model to generate stickers leads to poor prompt alignment and scene diversity. To overcome these drawbacks, we first finetune Emu on millions of sticker-like images collected using weak supervision to elicit diversity. Next, we curate human-in-the-loop (HITL) Alignment and Style datasets from model generations, and finetune to improve prompt alignment and style alignment respectively. Sequential finetuning on these datasets poses a tradeoff between better style alignment and prompt alignment gains. To address this tradeoff, we propose a novel fine-tuning method called Style Tailoring, which jointly fits the content and style distribution and achieves best tradeoff. Evaluation results show our method improves visual quality by 14%, prompt alignment by 16.2% and scene diversity by 15.3%, compared to prompt engineering the base Emu model for stickers generation.
PDF281December 15, 2024