L'effacement de tokens comme empreinte des éléments de vocabulaire implicites dans les LLM

papers.abstract

Les LLM traitent le texte sous forme de séquences de tokens qui correspondent approximativement à des mots, où les mots moins courants sont représentés par plusieurs tokens. Cependant, les tokens individuels sont souvent sémantiquement indépendants des significations des mots/concepts qu'ils composent. Par exemple, le tokenizer de Llama-2-7b divise le mot "northeastern" en les tokens ['_n', 'ort', 'he', 'astern'], dont aucun ne correspond à des unités sémantiquement significatives comme "north" ou "east". De même, les significations globales d'entités nommées comme "Neil Young" et d'expressions multi-mots comme "break a leg" ne peuvent pas être directement déduites de leurs tokens constitutifs. Mécaniquement, comment les LLM convertissent-ils de tels groupes arbitraires de tokens en représentations de niveau supérieur utiles ? Dans ce travail, nous constatons que les représentations du dernier token des entités nommées et des mots multi-tokens présentent un effet prononcé d'"effacement", où les informations sur les tokens précédents et actuels sont rapidement oubliées dans les premières couches. En utilisant cette observation, nous proposons une méthode pour "lire" le vocabulaire implicite d'un LLM autoregressif en examinant les différences dans les représentations des tokens à travers les couches, et présentons les résultats de cette méthode pour Llama-2-7b et Llama-3-8B. À notre connaissance, il s'agit de la première tentative d'explorer le vocabulaire implicite d'un LLM.

English

LLMs process text as sequences of tokens that roughly correspond to words, where less common words are represented by multiple tokens. However, individual tokens are often semantically unrelated to the meanings of the words/concepts they comprise. For example, Llama-2-7b's tokenizer splits the word "northeastern" into the tokens ['_n', 'ort', 'he', 'astern'], none of which correspond to semantically meaningful units like "north" or "east." Similarly, the overall meanings of named entities like "Neil Young" and multi-word expressions like "break a leg" cannot be directly inferred from their constituent tokens. Mechanistically, how do LLMs convert such arbitrary groups of tokens into useful higher-level representations? In this work, we find that last token representations of named entities and multi-token words exhibit a pronounced "erasure" effect, where information about previous and current tokens is rapidly forgotten in early layers. Using this observation, we propose a method to "read out" the implicit vocabulary of an autoregressive LLM by examining differences in token representations across layers, and present results of this method for Llama-2-7b and Llama-3-8B. To our knowledge, this is the first attempt to probe the implicit vocabulary of an LLM.

L'effacement de tokens comme empreinte des éléments de vocabulaire implicites dans les LLM

Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

papers.abstract

Support