Os autoencoders esparsos podem ser usados para decompor e interpretar vetores de direção?
Can sparse autoencoders be used to decompose and interpret steering vectors?
November 13, 2024
Autores: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI
Resumo
Os vetores de direção são uma abordagem promissora para controlar o comportamento de grandes modelos de linguagem. No entanto, seus mecanismos subjacentes ainda são mal compreendidos. Embora os autoencoders esparsos (SAEs) possam oferecer um método potencial para interpretar os vetores de direção, descobertas recentes mostram que os vetores reconstruídos por SAE frequentemente carecem das propriedades de direção dos vetores originais. Este artigo investiga por que a aplicação direta de SAEs aos vetores de direção resulta em decomposições enganosas, identificando duas razões: (1) os vetores de direção estão fora da distribuição de entrada para a qual os SAEs são projetados e (2) os vetores de direção podem ter projeções negativas significativas em direções de características, para as quais os SAEs não são projetados para acomodar. Essas limitações dificultam o uso direto de SAEs para interpretar vetores de direção.
English
Steering vectors are a promising approach to control the behaviour of large
language models. However, their underlying mechanisms remain poorly understood.
While sparse autoencoders (SAEs) may offer a potential method to interpret
steering vectors, recent findings show that SAE-reconstructed vectors often
lack the steering properties of the original vectors. This paper investigates
why directly applying SAEs to steering vectors yields misleading
decompositions, identifying two reasons: (1) steering vectors fall outside the
input distribution for which SAEs are designed, and (2) steering vectors can
have meaningful negative projections in feature directions, which SAEs are not
designed to accommodate. These limitations hinder the direct use of SAEs for
interpreting steering vectors.