Analisar o Fluxo de Características para Aprimorar a Interpretação e Direcionamento em Modelos de Linguagem
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
February 5, 2025
Autores: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI
Resumo
Apresentamos uma nova abordagem para mapear sistematicamente as características descobertas por autoencoders esparsos em camadas consecutivas de grandes modelos de linguagem, ampliando trabalhos anteriores que examinaram links de características entre camadas. Ao utilizar uma técnica de similaridade cosseno livre de dados, rastreamos como características específicas persistem, se transformam ou surgem pela primeira vez em cada estágio. Este método gera gráficos detalhados da evolução das características, permitindo interpretabilidade refinada e insights mecanicistas sobre as computações do modelo. De forma crucial, demonstramos como esses mapas de características entre camadas facilitam o direcionamento direto do comportamento do modelo ao amplificar ou suprimir características escolhidas, alcançando controle temático direcionado na geração de texto. Em conjunto, nossas descobertas destacam a utilidade de um framework de interpretabilidade causal entre camadas que não apenas esclarece como as características se desenvolvem por meio de passagens diretas, mas também fornece novos meios para manipulação transparente de grandes modelos de linguagem.
English
We introduce a new approach to systematically map features discovered by
sparse autoencoder across consecutive layers of large language models,
extending earlier work that examined inter-layer feature links. By using a
data-free cosine similarity technique, we trace how specific features persist,
transform, or first appear at each stage. This method yields granular flow
graphs of feature evolution, enabling fine-grained interpretability and
mechanistic insights into model computations. Crucially, we demonstrate how
these cross-layer feature maps facilitate direct steering of model behavior by
amplifying or suppressing chosen features, achieving targeted thematic control
in text generation. Together, our findings highlight the utility of a causal,
cross-layer interpretability framework that not only clarifies how features
develop through forward passes but also provides new means for transparent
manipulation of large language models.Summary
AI-Generated Summary