PALP: Personalización Alineada con Prompts para Modelos de Texto a Imagen
PALP: Prompt Aligned Personalization of Text-to-Image Models
January 11, 2024
Autores: Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen-Or, Ariel Shamir
cs.AI
Resumen
Los creadores de contenido a menudo buscan generar imágenes personalizadas utilizando sujetos personales que van más allá de las capacidades de los modelos convencionales de texto a imagen. Además, pueden desear que la imagen resultante incluya una ubicación, estilo, ambiente y otros elementos específicos. Los métodos de personalización existentes pueden comprometer la capacidad de personalización o la alineación con indicaciones textuales complejas. Este compromiso puede dificultar el cumplimiento de las indicaciones del usuario y la fidelidad del sujeto. Proponemos un nuevo enfoque centrado en métodos de personalización para una única indicación, al que denominamos personalización alineada con la indicación. Aunque esto puede parecer restrictivo, nuestro método destaca en la mejora de la alineación del texto, permitiendo la creación de imágenes con indicaciones complejas y detalladas, lo que puede representar un desafío para las técnicas actuales. En particular, nuestro método mantiene el modelo personalizado alineado con una indicación objetivo utilizando un término adicional de muestreo por destilación de puntuación. Demostramos la versatilidad de nuestro método en configuraciones de múltiples y únicas tomas, y además mostramos que puede componer múltiples sujetos o inspirarse en imágenes de referencia, como obras de arte. Comparamos nuestro enfoque cuantitativa y cualitativamente con las técnicas de referencia y el estado del arte existentes.
English
Content creators often aim to create personalized images using personal
subjects that go beyond the capabilities of conventional text-to-image models.
Additionally, they may want the resulting image to encompass a specific
location, style, ambiance, and more. Existing personalization methods may
compromise personalization ability or the alignment to complex textual prompts.
This trade-off can impede the fulfillment of user prompts and subject fidelity.
We propose a new approach focusing on personalization methods for a
single prompt to address this issue. We term our approach prompt-aligned
personalization. While this may seem restrictive, our method excels in
improving text alignment, enabling the creation of images with complex and
intricate prompts, which may pose a challenge for current techniques. In
particular, our method keeps the personalized model aligned with a target
prompt using an additional score distillation sampling term. We demonstrate the
versatility of our method in multi- and single-shot settings and further show
that it can compose multiple subjects or use inspiration from reference images,
such as artworks. We compare our approach quantitatively and qualitatively with
existing baselines and state-of-the-art techniques.