La eliminación de tokens como huella de elementos de vocabulario implícitos en los LLM

Resumen

Los LLM procesan el texto como secuencias de tokens que aproximadamente corresponden a palabras, donde las palabras menos comunes se representan mediante múltiples tokens. Sin embargo, los tokens individuales a menudo no están relacionados semánticamente con los significados de las palabras/conceptos que componen. Por ejemplo, el tokenizador de Llama-2-7b divide la palabra "northeastern" en los tokens ['_n', 'ort', 'he', 'astern'], ninguno de los cuales corresponde a unidades semánticamente significativas como "north" o "east". De manera similar, los significados generales de entidades nombradas como "Neil Young" y expresiones de múltiples palabras como "break a leg" no pueden inferirse directamente a partir de sus tokens constituyentes. Mecánicamente, ¿cómo convierten los LLM estos grupos arbitrarios de tokens en representaciones útiles de nivel superior? En este trabajo, encontramos que las representaciones del último token de entidades nombradas y palabras de múltiples tokens exhiben un pronunciado efecto de "borrado", donde la información sobre los tokens anteriores y actuales se olvida rápidamente en las primeras capas. Utilizando esta observación, proponemos un método para "leer" el vocabulario implícito de un LLM autoregresivo examinando las diferencias en las representaciones de tokens a través de las capas, y presentamos los resultados de este método para Llama-2-7b y Llama-3-8B. Hasta donde sabemos, este es el primer intento de sondear el vocabulario implícito de un LLM.

English

LLMs process text as sequences of tokens that roughly correspond to words, where less common words are represented by multiple tokens. However, individual tokens are often semantically unrelated to the meanings of the words/concepts they comprise. For example, Llama-2-7b's tokenizer splits the word "northeastern" into the tokens ['_n', 'ort', 'he', 'astern'], none of which correspond to semantically meaningful units like "north" or "east." Similarly, the overall meanings of named entities like "Neil Young" and multi-word expressions like "break a leg" cannot be directly inferred from their constituent tokens. Mechanistically, how do LLMs convert such arbitrary groups of tokens into useful higher-level representations? In this work, we find that last token representations of named entities and multi-token words exhibit a pronounced "erasure" effect, where information about previous and current tokens is rapidly forgotten in early layers. Using this observation, we propose a method to "read out" the implicit vocabulary of an autoregressive LLM by examining differences in token representations across layers, and present results of this method for Llama-2-7b and Llama-3-8B. To our knowledge, this is the first attempt to probe the implicit vocabulary of an LLM.

La eliminación de tokens como huella de elementos de vocabulario implícitos en los LLM

Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

Resumen

Support