Могут ли разреженные автоэнкодеры использоваться для декомпозиции и интерпретации векторов управления?
Can sparse autoencoders be used to decompose and interpret steering vectors?
November 13, 2024
Авторы: Harry Mayne, Yushi Yang, Adam Mahdi
cs.AI
Аннотация
Векторы управления - это многообещающий подход к управлению поведением больших языковых моделей. Однако их базовые механизмы остаются плохо понятыми. В то время как разреженные автокодировщики (SAE) могут предложить потенциальный метод интерпретации векторов управления, недавние исследования показывают, что восстановленные SAE-векторы часто лишены свойств управления оригинальными векторами. В данной статье исследуется, почему прямое применение SAE к векторам управления приводит к вводящим в заблуждение декомпозициям, выявляя две причины: (1) векторы управления выходят за пределы распределения ввода, для которого предназначены SAE, и (2) векторы управления могут иметь смысловые отрицательные проекции в направлениях признаков, для которых SAE не предназначены. Эти ограничения затрудняют прямое использование SAE для интерпретации векторов управления.
English
Steering vectors are a promising approach to control the behaviour of large
language models. However, their underlying mechanisms remain poorly understood.
While sparse autoencoders (SAEs) may offer a potential method to interpret
steering vectors, recent findings show that SAE-reconstructed vectors often
lack the steering properties of the original vectors. This paper investigates
why directly applying SAEs to steering vectors yields misleading
decompositions, identifying two reasons: (1) steering vectors fall outside the
input distribution for which SAEs are designed, and (2) steering vectors can
have meaningful negative projections in feature directions, which SAEs are not
designed to accommodate. These limitations hinder the direct use of SAEs for
interpreting steering vectors.Summary
AI-Generated Summary