ChatPaper.aiChatPaper

Geração Consistente de Texto para Imagem sem Treinamento

Training-Free Consistent Text-to-Image Generation

February 5, 2024
Autores: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI

Resumo

Modelos de texto para imagem oferecem um novo nível de flexibilidade criativa, permitindo que os usuários guiem o processo de geração de imagens por meio de linguagem natural. No entanto, usar esses modelos para retratar consistentemente o mesmo assunto em diversos prompts continua sendo um desafio. As abordagens existentes ajustam o modelo para ensinar novas palavras que descrevem assuntos específicos fornecidos pelo usuário ou adicionam condicionamento de imagem ao modelo. Esses métodos exigem uma longa otimização por assunto ou pré-treinamento em larga escala. Além disso, eles lutam para alinhar as imagens geradas com os prompts de texto e enfrentam dificuldades ao retratar múltiplos assuntos. Aqui, apresentamos o ConsiStory, uma abordagem livre de treinamento que permite a geração consistente de assuntos ao compartilhar as ativações internas do modelo pré-treinado. Introduzimos um bloco de atenção compartilhada orientado por assunto e injeção de características baseada em correspondência para promover a consistência do assunto entre as imagens. Adicionalmente, desenvolvemos estratégias para incentivar a diversidade de layout enquanto mantemos a consistência do assunto. Comparamos o ConsiStory a uma variedade de baselines e demonstramos desempenho de ponta em consistência de assunto e alinhamento de texto, sem exigir um único passo de otimização. Por fim, o ConsiStory pode se estender naturalmente para cenários com múltiplos assuntos e até mesmo permitir personalização livre de treinamento para objetos comuns.
English
Text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language. However, using these models to consistently portray the same subject across diverse prompts remains challenging. Existing approaches fine-tune the model to teach it new words that describe specific user-provided subjects or add image conditioning to the model. These methods require lengthy per-subject optimization or large-scale pre-training. Moreover, they struggle to align generated images with text prompts and face difficulties in portraying multiple subjects. Here, we present ConsiStory, a training-free approach that enables consistent subject generation by sharing the internal activations of the pretrained model. We introduce a subject-driven shared attention block and correspondence-based feature injection to promote subject consistency between images. Additionally, we develop strategies to encourage layout diversity while maintaining subject consistency. We compare ConsiStory to a range of baselines, and demonstrate state-of-the-art performance on subject consistency and text alignment, without requiring a single optimization step. Finally, ConsiStory can naturally extend to multi-subject scenarios, and even enable training-free personalization for common objects.
PDF6712December 22, 2025