Patchscope: Un Marco Unificador para Inspeccionar Representaciones Ocultas de Modelos de Lenguaje
Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models
January 11, 2024
Autores: Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva
cs.AI
Resumen
La inspección de la información codificada en las representaciones ocultas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) puede explicar el comportamiento de los modelos y verificar su alineación con los valores humanos. Dadas las capacidades de los LLMs para generar texto comprensible para los humanos, proponemos aprovechar el propio modelo para explicar sus representaciones internas en lenguaje natural. Introducimos un marco llamado Patchscopes y demostramos cómo puede utilizarse para responder a una amplia gama de preguntas de investigación sobre el cálculo de un LLM. Mostramos que los métodos previos de interpretabilidad basados en proyectar representaciones en el espacio del vocabulario e intervenir en el cálculo del LLM pueden verse como casos especiales de este marco. Además, varias de sus limitaciones, como la incapacidad para inspeccionar las capas iniciales o la falta de expresividad, pueden mitigarse mediante un Patchscope. Más allá de unificar las técnicas de inspección previas, Patchscopes también abre nuevas posibilidades, como el uso de un modelo más capaz para explicar las representaciones de un modelo más pequeño, y desbloquea nuevas aplicaciones, como la autocorrección en razonamientos de múltiples pasos.
English
Inspecting the information encoded in hidden representations of large
language models (LLMs) can explain models' behavior and verify their alignment
with human values. Given the capabilities of LLMs in generating
human-understandable text, we propose leveraging the model itself to explain
its internal representations in natural language. We introduce a framework
called Patchscopes and show how it can be used to answer a wide range of
research questions about an LLM's computation. We show that prior
interpretability methods based on projecting representations into the
vocabulary space and intervening on the LLM computation, can be viewed as
special instances of this framework. Moreover, several of their shortcomings
such as failure in inspecting early layers or lack of expressivity can be
mitigated by a Patchscope. Beyond unifying prior inspection techniques,
Patchscopes also opens up new possibilities such as using a more capable model
to explain the representations of a smaller model, and unlocks new applications
such as self-correction in multi-hop reasoning.