Les modèles texte-image ont moins besoin des encodeurs de texte que vous ne le pensez.

Résumé

Les modèles texte-image utilisent les invites textuelles comme principale interface avec l'intention humaine. Ces invites sont encodées par un encodeur de texte en plongements (embeddings) qui conditionnent le processus de génération d'images. Au-delà de la signification individuelle des tokens, les plongements textuels encodent des informations contextuelles sur l'ensemble de l'invite, telles que la compositionnalité et l'attribution d'attributs. Cependant, il reste sous-exploré de savoir si les modèles d'images exploitent réellement ces informations plus riches. Ici, nous abordons la question suivante : quels aspects de la représentation textuelle sont essentiels pour la génération d'images ? Nous montrons que les modèles de diffusion basés sur des transformateurs texte-image ne reposent généralement que sur deux aspects relativement simples des représentations textuelles : (i) la fusion de tokens adjacents en une représentation de mot, pour les mots s'étendant sur plusieurs tokens, et (ii) l'ordre des mots, imprégné par le plongement positionnel de l'encodeur de texte. Pour le démontrer, nous construisons un nouveau plongement textuel qui encode uniquement les significations individuelles des mots et leur ordre, mais sans aucune information contextuelle sur l'ensemble de l'invite. Nous constatons que cette représentation de sac de mots étiquetés par position suffit à guider avec succès la génération d'images, atteignant une qualité visuelle et une fidélité textuelle comparables à celles obtenues avec un plongement textuel complet. Cela montre que, contrairement à une idée reçue, les modèles texte-image n'utilisent souvent pas les informations riches encodées dans le plongement textuel au-delà des significations individuelles des mots et de leur ordre. Au lieu de cela, le décodage des structures linguistiques complexes est effectué par le modèle d'image lui-même. Page web du projet : https://nsping13.github.io/contextless-TTI/

English

Text-to-image models rely on text prompts as their primary interface to human intent. Prompts are encoded by a text encoder into embeddings that condition the image generation process. Beyond individual token meanings, text embeddings encode contextual information across the full prompt, such as compositionality and attribute binding. However, whether image models actually exploit this richer information remains underexplored. Here, we address the question: Which aspects of text representation are essential for image generation? We show that text-to-image diffusion transformer-based models commonly rely only on two relatively straightforward aspects of text representations: (i) the merging of adjacent tokens into a word representation, for words spanning multiple tokens, and (ii) word order, which is imprinted by the positional embedding of the text-encoder. To show this, we construct a new text embedding that encodes only individual word meanings and order but lacks any contextual information about the full prompt. We find that this bag of position-tagged words representation is sufficient to successfully guide image generation, achieving visual quality and text fidelity that are on par with full text embedding-guided generation. This demonstrates that, contrary to common belief, text-to-image models often do not use the rich information encoded in the text embedding beyond individual word meanings and word order. Instead, the decoding of complex linguistic structures is performed by the image model itself. Project webpage: https://nsping13.github.io/contextless-TTI/