Generación Consistente de Texto a Imagen sin Entrenamiento
Training-Free Consistent Text-to-Image Generation
February 5, 2024
Autores: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI
Resumen
Los modelos de texto a imagen ofrecen un nuevo nivel de flexibilidad creativa al permitir que los usuarios guíen el proceso de generación de imágenes mediante lenguaje natural. Sin embargo, utilizar estos modelos para representar de manera consistente el mismo sujeto en diversos prompts sigue siendo un desafío. Los enfoques existentes ajustan el modelo para enseñarle nuevas palabras que describen sujetos específicos proporcionados por el usuario o añaden condicionamiento de imagen al modelo. Estos métodos requieren una optimización prolongada por sujeto o un preentrenamiento a gran escala. Además, tienen dificultades para alinear las imágenes generadas con los prompts de texto y para representar múltiples sujetos. Aquí presentamos ConsiStory, un enfoque libre de entrenamiento que permite la generación consistente de sujetos al compartir las activaciones internas del modelo preentrenado. Introducimos un bloque de atención compartida impulsado por el sujeto y una inyección de características basada en correspondencias para promover la consistencia del sujeto entre las imágenes. Adicionalmente, desarrollamos estrategias para fomentar la diversidad de diseño mientras se mantiene la consistencia del sujeto. Comparamos ConsiStory con una variedad de líneas base y demostramos un rendimiento de vanguardia en consistencia de sujeto y alineación de texto, sin requerir un solo paso de optimización. Finalmente, ConsiStory puede extenderse de manera natural a escenarios de múltiples sujetos e incluso permitir la personalización sin entrenamiento para objetos comunes.
English
Text-to-image models offer a new level of creative flexibility by allowing
users to guide the image generation process through natural language. However,
using these models to consistently portray the same subject across diverse
prompts remains challenging. Existing approaches fine-tune the model to teach
it new words that describe specific user-provided subjects or add image
conditioning to the model. These methods require lengthy per-subject
optimization or large-scale pre-training. Moreover, they struggle to align
generated images with text prompts and face difficulties in portraying multiple
subjects. Here, we present ConsiStory, a training-free approach that enables
consistent subject generation by sharing the internal activations of the
pretrained model. We introduce a subject-driven shared attention block and
correspondence-based feature injection to promote subject consistency between
images. Additionally, we develop strategies to encourage layout diversity while
maintaining subject consistency. We compare ConsiStory to a range of baselines,
and demonstrate state-of-the-art performance on subject consistency and text
alignment, without requiring a single optimization step. Finally, ConsiStory
can naturally extend to multi-subject scenarios, and even enable training-free
personalization for common objects.