Hypothèse de la représentation du cadre : Interprétabilité multi-jeton des LLM et génération de texte guidée par le concept
Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation
December 10, 2024
Auteurs: Pedro H. V. Valois, Lincon S. Souza, Erica K. Shimomoto, Kazuhiro Fukui
cs.AI
Résumé
L'interprétabilité est un défi majeur pour favoriser la confiance dans les Grands Modèles de Langage (GML), qui découle de la complexité d'extraire le raisonnement des paramètres du modèle. Nous présentons l'Hypothèse de Représentation de Cadre, un cadre théoriquement robuste ancré dans l'Hypothèse de Représentation Linéaire (HRL) pour interpréter et contrôler les GML en modélisant des mots multi-token. Des recherches antérieures ont exploré l'HRL pour relier les représentations des GML à des concepts linguistiques, mais se limitaient à une analyse de jeton unique. Comme la plupart des mots sont composés de plusieurs jetons, nous étendons l'HRL aux mots multi-token, permettant ainsi son utilisation sur n'importe quelles données textuelles avec des milliers de concepts. À cette fin, nous proposons que les mots puissent être interprétés comme des cadres, des séquences ordonnées de vecteurs qui captent mieux les relations entre les jetons et les mots. Ensuite, les concepts peuvent être représentés par la moyenne des cadres de mots partageant un concept commun. Nous présentons ces outils à travers le Décodage Guidé par les Concepts Top-k, qui peut orienter de manière intuitive la génération de texte en utilisant des concepts choisis. Nous vérifions ces idées sur les familles Llama 3.1, Gemma 2 et Phi 3, en démontrant les biais de genre et de langue, en exposant des contenus nuisibles, mais aussi en montrant le potentiel de les remédier, conduisant à des GML plus sûrs et plus transparents. Le code est disponible sur https://github.com/phvv-me/frame-representation-hypothesis.git
English
Interpretability is a key challenge in fostering trust for Large Language
Models (LLMs), which stems from the complexity of extracting reasoning from
model's parameters. We present the Frame Representation Hypothesis, a
theoretically robust framework grounded in the Linear Representation Hypothesis
(LRH) to interpret and control LLMs by modeling multi-token words. Prior
research explored LRH to connect LLM representations with linguistic concepts,
but was limited to single token analysis. As most words are composed of several
tokens, we extend LRH to multi-token words, thereby enabling usage on any
textual data with thousands of concepts. To this end, we propose words can be
interpreted as frames, ordered sequences of vectors that better capture
token-word relationships. Then, concepts can be represented as the average of
word frames sharing a common concept. We showcase these tools through Top-k
Concept-Guided Decoding, which can intuitively steer text generation using
concepts of choice. We verify said ideas on Llama 3.1, Gemma 2, and Phi 3
families, demonstrating gender and language biases, exposing harmful content,
but also potential to remediate them, leading to safer and more transparent
LLMs. Code is available at
https://github.com/phvv-me/frame-representation-hypothesis.gitSummary
AI-Generated Summary