Geração Consistente de Texto para Imagem sem Treinamento
Training-Free Consistent Text-to-Image Generation
February 5, 2024
Autores: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI
Resumo
Modelos de texto para imagem oferecem um novo nível de flexibilidade criativa, permitindo que os usuários guiem o processo de geração de imagens por meio de linguagem natural. No entanto, usar esses modelos para retratar consistentemente o mesmo assunto em diversos prompts continua sendo um desafio. As abordagens existentes ajustam o modelo para ensinar novas palavras que descrevem assuntos específicos fornecidos pelo usuário ou adicionam condicionamento de imagem ao modelo. Esses métodos exigem uma longa otimização por assunto ou pré-treinamento em larga escala. Além disso, eles lutam para alinhar as imagens geradas com os prompts de texto e enfrentam dificuldades ao retratar múltiplos assuntos. Aqui, apresentamos o ConsiStory, uma abordagem livre de treinamento que permite a geração consistente de assuntos ao compartilhar as ativações internas do modelo pré-treinado. Introduzimos um bloco de atenção compartilhada orientado por assunto e injeção de características baseada em correspondência para promover a consistência do assunto entre as imagens. Adicionalmente, desenvolvemos estratégias para incentivar a diversidade de layout enquanto mantemos a consistência do assunto. Comparamos o ConsiStory a uma variedade de baselines e demonstramos desempenho de ponta em consistência de assunto e alinhamento de texto, sem exigir um único passo de otimização. Por fim, o ConsiStory pode se estender naturalmente para cenários com múltiplos assuntos e até mesmo permitir personalização livre de treinamento para objetos comuns.
English
Text-to-image models offer a new level of creative flexibility by allowing
users to guide the image generation process through natural language. However,
using these models to consistently portray the same subject across diverse
prompts remains challenging. Existing approaches fine-tune the model to teach
it new words that describe specific user-provided subjects or add image
conditioning to the model. These methods require lengthy per-subject
optimization or large-scale pre-training. Moreover, they struggle to align
generated images with text prompts and face difficulties in portraying multiple
subjects. Here, we present ConsiStory, a training-free approach that enables
consistent subject generation by sharing the internal activations of the
pretrained model. We introduce a subject-driven shared attention block and
correspondence-based feature injection to promote subject consistency between
images. Additionally, we develop strategies to encourage layout diversity while
maintaining subject consistency. We compare ConsiStory to a range of baselines,
and demonstrate state-of-the-art performance on subject consistency and text
alignment, without requiring a single optimization step. Finally, ConsiStory
can naturally extend to multi-subject scenarios, and even enable training-free
personalization for common objects.