ChatPaper.aiChatPaper

Generación Consistente de Texto a Imagen sin Entrenamiento

Training-Free Consistent Text-to-Image Generation

February 5, 2024
Autores: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI

Resumen

Los modelos de texto a imagen ofrecen un nuevo nivel de flexibilidad creativa al permitir que los usuarios guíen el proceso de generación de imágenes mediante lenguaje natural. Sin embargo, utilizar estos modelos para representar de manera consistente el mismo sujeto en diversos prompts sigue siendo un desafío. Los enfoques existentes ajustan el modelo para enseñarle nuevas palabras que describen sujetos específicos proporcionados por el usuario o añaden condicionamiento de imagen al modelo. Estos métodos requieren una optimización prolongada por sujeto o un preentrenamiento a gran escala. Además, tienen dificultades para alinear las imágenes generadas con los prompts de texto y para representar múltiples sujetos. Aquí presentamos ConsiStory, un enfoque libre de entrenamiento que permite la generación consistente de sujetos al compartir las activaciones internas del modelo preentrenado. Introducimos un bloque de atención compartida impulsado por el sujeto y una inyección de características basada en correspondencias para promover la consistencia del sujeto entre las imágenes. Adicionalmente, desarrollamos estrategias para fomentar la diversidad de diseño mientras se mantiene la consistencia del sujeto. Comparamos ConsiStory con una variedad de líneas base y demostramos un rendimiento de vanguardia en consistencia de sujeto y alineación de texto, sin requerir un solo paso de optimización. Finalmente, ConsiStory puede extenderse de manera natural a escenarios de múltiples sujetos e incluso permitir la personalización sin entrenamiento para objetos comunes.
English
Text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language. However, using these models to consistently portray the same subject across diverse prompts remains challenging. Existing approaches fine-tune the model to teach it new words that describe specific user-provided subjects or add image conditioning to the model. These methods require lengthy per-subject optimization or large-scale pre-training. Moreover, they struggle to align generated images with text prompts and face difficulties in portraying multiple subjects. Here, we present ConsiStory, a training-free approach that enables consistent subject generation by sharing the internal activations of the pretrained model. We introduce a subject-driven shared attention block and correspondence-based feature injection to promote subject consistency between images. Additionally, we develop strategies to encourage layout diversity while maintaining subject consistency. We compare ConsiStory to a range of baselines, and demonstrate state-of-the-art performance on subject consistency and text alignment, without requiring a single optimization step. Finally, ConsiStory can naturally extend to multi-subject scenarios, and even enable training-free personalization for common objects.
PDF6812December 15, 2024