ChatPaper.aiChatPaper

Разреженные автокодировщики обнаруживают высокоинтерпретируемые признаки в языковых моделях

Sparse Autoencoders Find Highly Interpretable Features in Language Models

September 15, 2023
Авторы: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI

Аннотация

Одним из препятствий для более глубокого понимания внутренней работы нейронных сетей является полисемантичность, при которой нейроны активируются в различных, семантически различающихся контекстах. Полисемантичность мешает нам находить краткие, понятные человеку объяснения того, что нейронные сети делают внутри. Одной из предполагаемых причин полисемантичности является суперпозиция, при которой нейронные сети представляют больше признаков, чем у них есть нейронов, путем назначения признаков избыточному набору направлений в пространстве активаций, а не отдельным нейронам. В данной работе мы пытаемся идентифицировать эти направления, используя разреженные автокодировщики для реконструкции внутренних активаций языковой модели. Эти автокодировщики обучаются наборам разреженно активирующихся признаков, которые более интерпретируемы и моносемантичны, чем направления, идентифицированные альтернативными подходами, где интерпретируемость измеряется автоматизированными методами. Удаление этих признаков позволяет точно редактировать модель, например, устраняя такие возможности, как предсказание местоимений, при этом меньше нарушая поведение модели по сравнению с предыдущими методами. Эта работа показывает, что разрешение суперпозиции в языковых моделях возможно с использованием масштабируемого, неконтролируемого метода. Наш метод может послужить основой для будущих исследований механистической интерпретируемости, что, как мы надеемся, позволит достичь большей прозрачности и управляемости моделей.
English
One of the roadblocks to a better understanding of neural networks' internals is polysemanticity, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is superposition, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Ablating these features enables precise model editing, for example, by removing capabilities such as pronoun prediction, while disrupting model behaviour less than prior techniques. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.
PDF150December 15, 2024