Patchscope : Un cadre unificateur pour l'inspection des représentations cachées des modèles de langage

papers.abstract

L'examen des informations encodées dans les représentations cachées des grands modèles de langage (LLM) peut expliquer le comportement des modèles et vérifier leur alignement avec les valeurs humaines. Compte tenu des capacités des LLM à générer du texte compréhensible par les humains, nous proposons d'exploiter le modèle lui-même pour expliquer ses représentations internes en langage naturel. Nous introduisons un cadre appelé Patchscopes et montrons comment il peut être utilisé pour répondre à un large éventail de questions de recherche sur le calcul d'un LLM. Nous démontrons que les méthodes d'interprétabilité antérieures, basées sur la projection des représentations dans l'espace du vocabulaire et l'intervention sur le calcul du LLM, peuvent être considérées comme des instances spécifiques de ce cadre. De plus, plusieurs de leurs limites, telles que l'échec dans l'inspection des couches précoces ou le manque d'expressivité, peuvent être atténuées par un Patchscope. Au-delà de l'unification des techniques d'inspection précédentes, Patchscopes ouvre également de nouvelles possibilités, comme l'utilisation d'un modèle plus performant pour expliquer les représentations d'un modèle plus petit, et débloque de nouvelles applications, telles que l'auto-correction dans le raisonnement multi-étapes.

English

Inspecting the information encoded in hidden representations of large language models (LLMs) can explain models' behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to explain its internal representations in natural language. We introduce a framework called Patchscopes and show how it can be used to answer a wide range of research questions about an LLM's computation. We show that prior interpretability methods based on projecting representations into the vocabulary space and intervening on the LLM computation, can be viewed as special instances of this framework. Moreover, several of their shortcomings such as failure in inspecting early layers or lack of expressivity can be mitigated by a Patchscope. Beyond unifying prior inspection techniques, Patchscopes also opens up new possibilities such as using a more capable model to explain the representations of a smaller model, and unlocks new applications such as self-correction in multi-hop reasoning.

Patchscope : Un cadre unificateur pour l'inspection des représentations cachées des modèles de langage

Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models

papers.abstract

Support