Tonalité de Remplissage : Une Analyse Mécaniste des Jetons de Remplissage dans les Modèles T2I

papers.abstract

Les modèles de diffusion texte-image (T2I) reposent sur des instructions encodées pour guider le processus de génération d'images. En général, ces instructions sont étendues à une longueur fixe en ajoutant des jetons de rembourrage avant l'encodage du texte. Bien que cela soit une pratique courante, l'influence des jetons de rembourrage sur le processus de génération d'images n'a pas été étudiée. Dans ce travail, nous menons la première analyse approfondie du rôle des jetons de rembourrage dans les modèles T2I. Nous développons deux techniques causales pour analyser comment les informations sont encodées dans la représentation des jetons à travers les différents composants du pipeline T2I. En utilisant ces techniques, nous examinons quand et comment les jetons de rembourrage influencent le processus de génération d'images. Nos résultats révèlent trois scénarios distincts : les jetons de rembourrage peuvent affecter la sortie du modèle pendant l'encodage du texte, pendant le processus de diffusion, ou être effectivement ignorés. De plus, nous identifions des relations clés entre ces scénarios et l'architecture du modèle (attention croisée ou auto-attention) et son processus d'entraînement (encodeur de texte figé ou entraîné). Ces insights contribuent à une compréhension plus approfondie des mécanismes des jetons de rembourrage, pouvant potentiellement guider la conception de modèles futurs et les pratiques d'entraînement dans les systèmes T2I.

English

Text-to-image (T2I) diffusion models rely on encoded prompts to guide the image generation process. Typically, these prompts are extended to a fixed length by adding padding tokens before text encoding. Despite being a default practice, the influence of padding tokens on the image generation process has not been investigated. In this work, we conduct the first in-depth analysis of the role padding tokens play in T2I models. We develop two causal techniques to analyze how information is encoded in the representation of tokens across different components of the T2I pipeline. Using these techniques, we investigate when and how padding tokens impact the image generation process. Our findings reveal three distinct scenarios: padding tokens may affect the model's output during text encoding, during the diffusion process, or be effectively ignored. Moreover, we identify key relationships between these scenarios and the model's architecture (cross or self-attention) and its training process (frozen or trained text encoder). These insights contribute to a deeper understanding of the mechanisms of padding tokens, potentially informing future model design and training practices in T2I systems.

Tonalité de Remplissage : Une Analyse Mécaniste des Jetons de Remplissage dans les Modèles T2I

Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

papers.abstract

Support