Vullingsniveau: Een Mechanistische Analyse van Vullings-tokens in T2I Modellen
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models
January 12, 2025
Auteurs: Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
cs.AI
Samenvatting
Tekst-naar-afbeelding (T2I) diffusiemodellen vertrouwen op gecodeerde prompts om het afbeeldingsgeneratieproces te begeleiden. Gewoonlijk worden deze prompts uitgebreid tot een vaste lengte door padding tokens toe te voegen vóór de tekstcodering. Ondanks dat dit een standaardpraktijk is, is de invloed van padding tokens op het afbeeldingsgeneratieproces niet onderzocht. In dit werk voeren we de eerste diepgaande analyse uit van de rol die padding tokens spelen in T2I-modellen. We ontwikkelen twee causale technieken om te analyseren hoe informatie wordt gecodeerd in de representatie van tokens over verschillende componenten van de T2I-pijplijn. Met behulp van deze technieken onderzoeken we wanneer en hoe padding tokens het afbeeldingsgeneratieproces beïnvloeden. Onze bevindingen onthullen drie verschillende scenario's: padding tokens kunnen invloed hebben op de output van het model tijdens tekstcodering, tijdens het diffusieproces, of effectief genegeerd worden. Bovendien identificeren we belangrijke relaties tussen deze scenario's en de architectuur van het model (kruis- of zelfaandacht) en het trainingsproces (bevroren of getrainde tekstcodering). Deze inzichten dragen bij aan een dieper begrip van de mechanismen van padding tokens, en kunnen mogelijk toekomstige modelontwerpen en trainingspraktijken in T2I-systemen informeren.
English
Text-to-image (T2I) diffusion models rely on encoded prompts to guide the
image generation process. Typically, these prompts are extended to a fixed
length by adding padding tokens before text encoding. Despite being a default
practice, the influence of padding tokens on the image generation process has
not been investigated. In this work, we conduct the first in-depth analysis of
the role padding tokens play in T2I models. We develop two causal techniques to
analyze how information is encoded in the representation of tokens across
different components of the T2I pipeline. Using these techniques, we
investigate when and how padding tokens impact the image generation process.
Our findings reveal three distinct scenarios: padding tokens may affect the
model's output during text encoding, during the diffusion process, or be
effectively ignored. Moreover, we identify key relationships between these
scenarios and the model's architecture (cross or self-attention) and its
training process (frozen or trained text encoder). These insights contribute to
a deeper understanding of the mechanisms of padding tokens, potentially
informing future model design and training practices in T2I systems.Summary
AI-Generated Summary