Mejorando la interpretabilidad automatizada con descripciones centradas en la salida.

Resumen

Los procesos automatizados de interpretabilidad generan descripciones en lenguaje natural para los conceptos representados por características en modelos de lenguaje grandes (LLMs), como plantas o la primera palabra en una oración. Estas descripciones se derivan utilizando entradas que activan la característica, la cual puede ser una dimensión o una dirección en el espacio de representación del modelo. Sin embargo, identificar las entradas activadoras es costoso, y el rol mecanicista de una característica en el comportamiento del modelo se determina tanto por cómo las entradas causan que la característica se active como por cómo la activación de la característica afecta las salidas. Mediante evaluaciones de dirección, revelamos que los procesos actuales proporcionan descripciones que no logran capturar el efecto causal de la característica en las salidas. Para solucionar esto, proponemos métodos eficientes centrados en las salidas para generar descripciones de características automáticamente. Estos métodos utilizan los tokens con mayor peso después de la estimulación de la característica o los tokens de mayor peso después de aplicar directamente la "desincrustación" del vocabulario a la característica. Nuestras descripciones centradas en las salidas capturan mejor el efecto causal de una característica en las salidas del modelo que las descripciones centradas en las entradas, pero combinar ambas conduce al mejor rendimiento en ambas evaluaciones de entrada y salida. Por último, demostramos que las descripciones centradas en las salidas pueden utilizarse para encontrar entradas que activen características que anteriormente se consideraban "inactivas".

English

Automated interpretability pipelines generate natural language descriptions for the concepts represented by features in large language models (LLMs), such as plants or the first word in a sentence. These descriptions are derived using inputs that activate the feature, which may be a dimension or a direction in the model's representation space. However, identifying activating inputs is costly, and the mechanistic role of a feature in model behavior is determined both by how inputs cause a feature to activate and by how feature activation affects outputs. Using steering evaluations, we reveal that current pipelines provide descriptions that fail to capture the causal effect of the feature on outputs. To fix this, we propose efficient, output-centric methods for automatically generating feature descriptions. These methods use the tokens weighted higher after feature stimulation or the highest weight tokens after applying the vocabulary "unembedding" head directly to the feature. Our output-centric descriptions better capture the causal effect of a feature on model outputs than input-centric descriptions, but combining the two leads to the best performance on both input and output evaluations. Lastly, we show that output-centric descriptions can be used to find inputs that activate features previously thought to be "dead".

Mejorando la interpretabilidad automatizada con descripciones centradas en la salida.

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Resumen

Support