ChatPaper.aiChatPaper

Tono de Relleno: Un Análisis Mecanicista de los Tokens de Relleno en Modelos de T2I

Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

January 12, 2025
Autores: Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
cs.AI

Resumen

Los modelos de difusión texto-imagen (T2I) dependen de indicaciones codificadas para guiar el proceso de generación de imágenes. Normalmente, estas indicaciones se extienden a una longitud fija mediante la adición de tokens de relleno antes de la codificación del texto. A pesar de ser una práctica habitual, no se ha investigado la influencia de los tokens de relleno en el proceso de generación de imágenes. En este trabajo, realizamos el primer análisis exhaustivo del papel que desempeñan los tokens de relleno en los modelos T2I. Desarrollamos dos técnicas causales para analizar cómo se codifica la información en la representación de tokens a lo largo de los diferentes componentes del proceso T2I. Utilizando estas técnicas, investigamos cuándo y cómo los tokens de relleno afectan al proceso de generación de imágenes. Nuestros hallazgos revelan tres escenarios distintos: los tokens de relleno pueden afectar a la salida del modelo durante la codificación del texto, durante el proceso de difusión, o ser efectivamente ignorados. Además, identificamos relaciones clave entre estos escenarios y la arquitectura del modelo (atención cruzada o auto-atención) y su proceso de entrenamiento (codificador de texto congelado o entrenado). Estas percepciones contribuyen a una comprensión más profunda de los mecanismos de los tokens de relleno, pudiendo informar sobre el diseño de modelos futuros y las prácticas de entrenamiento en sistemas T2I.
English
Text-to-image (T2I) diffusion models rely on encoded prompts to guide the image generation process. Typically, these prompts are extended to a fixed length by adding padding tokens before text encoding. Despite being a default practice, the influence of padding tokens on the image generation process has not been investigated. In this work, we conduct the first in-depth analysis of the role padding tokens play in T2I models. We develop two causal techniques to analyze how information is encoded in the representation of tokens across different components of the T2I pipeline. Using these techniques, we investigate when and how padding tokens impact the image generation process. Our findings reveal three distinct scenarios: padding tokens may affect the model's output during text encoding, during the diffusion process, or be effectively ignored. Moreover, we identify key relationships between these scenarios and the model's architecture (cross or self-attention) and its training process (frozen or trained text encoder). These insights contribute to a deeper understanding of the mechanisms of padding tokens, potentially informing future model design and training practices in T2I systems.

Summary

AI-Generated Summary

PDF332January 15, 2025