Génération d'images à partir de texte cohérente sans apprentissage

papers.abstract

Les modèles de génération d'images à partir de texte offrent un nouveau niveau de flexibilité créative en permettant aux utilisateurs de guider le processus de génération d'images via le langage naturel. Cependant, utiliser ces modèles pour représenter de manière cohérente le même sujet à travers divers prompts reste un défi. Les approches existantes ajustent finement le modèle pour lui enseigner de nouveaux mots décrivant des sujets spécifiques fournis par l'utilisateur ou ajoutent un conditionnement d'image au modèle. Ces méthodes nécessitent une optimisation longue par sujet ou un pré-entraînement à grande échelle. De plus, elles peinent à aligner les images générées avec les prompts textuels et rencontrent des difficultés pour représenter plusieurs sujets. Nous présentons ici ConsiStory, une approche sans entraînement qui permet la génération cohérente de sujets en partageant les activations internes du modèle pré-entraîné. Nous introduisons un bloc d'attention partagée piloté par le sujet et une injection de caractéristiques basée sur la correspondance pour promouvoir la cohérence du sujet entre les images. De plus, nous développons des stratégies pour encourager la diversité de la mise en page tout en maintenant la cohérence du sujet. Nous comparons ConsiStory à une gamme de méthodes de référence et démontrons des performances de pointe en matière de cohérence du sujet et d'alignement textuel, sans nécessiter une seule étape d'optimisation. Enfin, ConsiStory peut naturellement s'étendre à des scénarios multi-sujets, et même permettre une personnalisation sans entraînement pour des objets courants.

English

Text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language. However, using these models to consistently portray the same subject across diverse prompts remains challenging. Existing approaches fine-tune the model to teach it new words that describe specific user-provided subjects or add image conditioning to the model. These methods require lengthy per-subject optimization or large-scale pre-training. Moreover, they struggle to align generated images with text prompts and face difficulties in portraying multiple subjects. Here, we present ConsiStory, a training-free approach that enables consistent subject generation by sharing the internal activations of the pretrained model. We introduce a subject-driven shared attention block and correspondence-based feature injection to promote subject consistency between images. Additionally, we develop strategies to encourage layout diversity while maintaining subject consistency. We compare ConsiStory to a range of baselines, and demonstrate state-of-the-art performance on subject consistency and text alignment, without requiring a single optimization step. Finally, ConsiStory can naturally extend to multi-subject scenarios, and even enable training-free personalization for common objects.

Génération d'images à partir de texte cohérente sans apprentissage

Training-Free Consistent Text-to-Image Generation

papers.abstract

Support