¿Se pueden utilizar autoencoders dispersos para descomponer e interpretar vectores de dirección?
Can sparse autoencoders be used to decompose and interpret steering vectors?
November 13, 2024
Autores: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI
Resumen
Los vectores de dirección son un enfoque prometedor para controlar el comportamiento de los modelos de lenguaje grandes. Sin embargo, sus mecanismos subyacentes siguen siendo poco comprendidos. Aunque los autoencoders dispersos (SAEs, por sus siglas en inglés) pueden ofrecer un método potencial para interpretar los vectores de dirección, hallazgos recientes muestran que los vectores reconstruidos por SAE a menudo carecen de las propiedades de dirección de los vectores originales. Este artículo investiga por qué la aplicación directa de SAE a los vectores de dirección produce descomposiciones engañosas, identificando dos razones: (1) los vectores de dirección se encuentran fuera de la distribución de entrada para la cual están diseñados los SAE, y (2) los vectores de dirección pueden tener proyecciones negativas significativas en direcciones de características, para las cuales los SAE no están diseñados para acomodar. Estas limitaciones obstaculizan el uso directo de los SAE para interpretar los vectores de dirección.
English
Steering vectors are a promising approach to control the behaviour of large
language models. However, their underlying mechanisms remain poorly understood.
While sparse autoencoders (SAEs) may offer a potential method to interpret
steering vectors, recent findings show that SAE-reconstructed vectors often
lack the steering properties of the original vectors. This paper investigates
why directly applying SAEs to steering vectors yields misleading
decompositions, identifying two reasons: (1) steering vectors fall outside the
input distribution for which SAEs are designed, and (2) steering vectors can
have meaningful negative projections in feature directions, which SAEs are not
designed to accommodate. These limitations hinder the direct use of SAEs for
interpreting steering vectors.Summary
AI-Generated Summary