ChatPaper.aiChatPaper

Analizar el Flujo de Características para Mejorar la Interpretación y Dirección en Modelos de Lenguaje.

Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

February 5, 2025
Autores: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI

Resumen

Presentamos un nuevo enfoque para mapear sistemáticamente las características descubiertas por un autoencoder disperso a lo largo de capas consecutivas de grandes modelos de lenguaje, ampliando trabajos anteriores que examinaron enlaces de características entre capas. Al utilizar una técnica de similitud coseno sin datos, rastreamos cómo características específicas persisten, se transforman o aparecen por primera vez en cada etapa. Este método produce gráficos detallados del flujo de evolución de características, permitiendo una interpretabilidad detallada y percepciones mecanicistas sobre las computaciones del modelo. Crucialmente, demostramos cómo estos mapas de características entre capas facilitan la dirección directa del comportamiento del modelo al amplificar o suprimir características elegidas, logrando un control temático específico en la generación de texto. En conjunto, nuestros hallazgos resaltan la utilidad de un marco de interpretabilidad causal entre capas que no solo aclara cómo se desarrollan las características a través de pasos hacia adelante, sino que también proporciona nuevos medios para la manipulación transparente de grandes modelos de lenguaje.
English
We introduce a new approach to systematically map features discovered by sparse autoencoder across consecutive layers of large language models, extending earlier work that examined inter-layer feature links. By using a data-free cosine similarity technique, we trace how specific features persist, transform, or first appear at each stage. This method yields granular flow graphs of feature evolution, enabling fine-grained interpretability and mechanistic insights into model computations. Crucially, we demonstrate how these cross-layer feature maps facilitate direct steering of model behavior by amplifying or suppressing chosen features, achieving targeted thematic control in text generation. Together, our findings highlight the utility of a causal, cross-layer interpretability framework that not only clarifies how features develop through forward passes but also provides new means for transparent manipulation of large language models.

Summary

AI-Generated Summary

PDF602February 7, 2025