Génération d'images à partir de texte cohérente sans apprentissage
Training-Free Consistent Text-to-Image Generation
February 5, 2024
Auteurs: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI
Résumé
Les modèles de génération d'images à partir de texte offrent un nouveau niveau de flexibilité créative en permettant aux utilisateurs de guider le processus de génération d'images via le langage naturel. Cependant, utiliser ces modèles pour représenter de manière cohérente le même sujet à travers divers prompts reste un défi. Les approches existantes ajustent finement le modèle pour lui enseigner de nouveaux mots décrivant des sujets spécifiques fournis par l'utilisateur ou ajoutent un conditionnement d'image au modèle. Ces méthodes nécessitent une optimisation longue par sujet ou un pré-entraînement à grande échelle. De plus, elles peinent à aligner les images générées avec les prompts textuels et rencontrent des difficultés pour représenter plusieurs sujets. Nous présentons ici ConsiStory, une approche sans entraînement qui permet la génération cohérente de sujets en partageant les activations internes du modèle pré-entraîné. Nous introduisons un bloc d'attention partagée piloté par le sujet et une injection de caractéristiques basée sur la correspondance pour promouvoir la cohérence du sujet entre les images. De plus, nous développons des stratégies pour encourager la diversité de la mise en page tout en maintenant la cohérence du sujet. Nous comparons ConsiStory à une gamme de méthodes de référence et démontrons des performances de pointe en matière de cohérence du sujet et d'alignement textuel, sans nécessiter une seule étape d'optimisation. Enfin, ConsiStory peut naturellement s'étendre à des scénarios multi-sujets, et même permettre une personnalisation sans entraînement pour des objets courants.
English
Text-to-image models offer a new level of creative flexibility by allowing
users to guide the image generation process through natural language. However,
using these models to consistently portray the same subject across diverse
prompts remains challenging. Existing approaches fine-tune the model to teach
it new words that describe specific user-provided subjects or add image
conditioning to the model. These methods require lengthy per-subject
optimization or large-scale pre-training. Moreover, they struggle to align
generated images with text prompts and face difficulties in portraying multiple
subjects. Here, we present ConsiStory, a training-free approach that enables
consistent subject generation by sharing the internal activations of the
pretrained model. We introduce a subject-driven shared attention block and
correspondence-based feature injection to promote subject consistency between
images. Additionally, we develop strategies to encourage layout diversity while
maintaining subject consistency. We compare ConsiStory to a range of baselines,
and demonstrate state-of-the-art performance on subject consistency and text
alignment, without requiring a single optimization step. Finally, ConsiStory
can naturally extend to multi-subject scenarios, and even enable training-free
personalization for common objects.