Разреженные автокодировщики обнаруживают высокоинтерпретируемые признаки в языковых моделях
Sparse Autoencoders Find Highly Interpretable Features in Language Models
September 15, 2023
Авторы: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI
Аннотация
Одним из препятствий для более глубокого понимания внутренней работы нейронных сетей является полисемантичность, при которой нейроны активируются в различных, семантически различающихся контекстах. Полисемантичность мешает нам находить краткие, понятные человеку объяснения того, что нейронные сети делают внутри. Одной из предполагаемых причин полисемантичности является суперпозиция, при которой нейронные сети представляют больше признаков, чем у них есть нейронов, путем назначения признаков избыточному набору направлений в пространстве активаций, а не отдельным нейронам. В данной работе мы пытаемся идентифицировать эти направления, используя разреженные автокодировщики для реконструкции внутренних активаций языковой модели. Эти автокодировщики обучаются наборам разреженно активирующихся признаков, которые более интерпретируемы и моносемантичны, чем направления, идентифицированные альтернативными подходами, где интерпретируемость измеряется автоматизированными методами. Удаление этих признаков позволяет точно редактировать модель, например, устраняя такие возможности, как предсказание местоимений, при этом меньше нарушая поведение модели по сравнению с предыдущими методами. Эта работа показывает, что разрешение суперпозиции в языковых моделях возможно с использованием масштабируемого, неконтролируемого метода. Наш метод может послужить основой для будущих исследований механистической интерпретируемости, что, как мы надеемся, позволит достичь большей прозрачности и управляемости моделей.
English
One of the roadblocks to a better understanding of neural networks' internals
is polysemanticity, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
superposition, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Ablating these features enables precise model
editing, for example, by removing capabilities such as pronoun prediction,
while disrupting model behaviour less than prior techniques. This work
indicates that it is possible to resolve superposition in language models using
a scalable, unsupervised method. Our method may serve as a foundation for
future mechanistic interpretability work, which we hope will enable greater
model transparency and steerability.