ChatPaper.aiChatPaper

Patchscope: Un Marco Unificador para Inspeccionar Representaciones Ocultas de Modelos de Lenguaje

Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models

January 11, 2024
Autores: Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva
cs.AI

Resumen

La inspección de la información codificada en las representaciones ocultas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) puede explicar el comportamiento de los modelos y verificar su alineación con los valores humanos. Dadas las capacidades de los LLMs para generar texto comprensible para los humanos, proponemos aprovechar el propio modelo para explicar sus representaciones internas en lenguaje natural. Introducimos un marco llamado Patchscopes y demostramos cómo puede utilizarse para responder a una amplia gama de preguntas de investigación sobre el cálculo de un LLM. Mostramos que los métodos previos de interpretabilidad basados en proyectar representaciones en el espacio del vocabulario e intervenir en el cálculo del LLM pueden verse como casos especiales de este marco. Además, varias de sus limitaciones, como la incapacidad para inspeccionar las capas iniciales o la falta de expresividad, pueden mitigarse mediante un Patchscope. Más allá de unificar las técnicas de inspección previas, Patchscopes también abre nuevas posibilidades, como el uso de un modelo más capaz para explicar las representaciones de un modelo más pequeño, y desbloquea nuevas aplicaciones, como la autocorrección en razonamientos de múltiples pasos.
English
Inspecting the information encoded in hidden representations of large language models (LLMs) can explain models' behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to explain its internal representations in natural language. We introduce a framework called Patchscopes and show how it can be used to answer a wide range of research questions about an LLM's computation. We show that prior interpretability methods based on projecting representations into the vocabulary space and intervening on the LLM computation, can be viewed as special instances of this framework. Moreover, several of their shortcomings such as failure in inspecting early layers or lack of expressivity can be mitigated by a Patchscope. Beyond unifying prior inspection techniques, Patchscopes also opens up new possibilities such as using a more capable model to explain the representations of a smaller model, and unlocks new applications such as self-correction in multi-hop reasoning.
PDF230December 15, 2024