Анализ потока признаков для улучшения интерпретации и управления в языковых моделях.
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
February 5, 2025
Авторы: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI
Аннотация
Мы представляем новый подход к систематическому отображению признаков, обнаруженных разреженным автокодировщиком, через последовательные слои больших языковых моделей, расширяя ранее проведенные исследования, изучавшие связи признаков между слоями. Используя технику косинусного сходства без данных, мы отслеживаем, какие конкретные признаки сохраняются, преобразуются или впервые появляются на каждом этапе. Этот метод создает детальные графики эволюции признаков, обеспечивая тонкую интерпретируемость и механистические идеи в вычислениях модели. Критически важно, что мы демонстрируем, как эти карты признаков между слоями облегчают прямое управление поведением модели путем усиления или подавления выбранных признаков, достигая целевого тематического контроля в генерации текста. Вместе наши результаты подчеркивают полезность причинно-следственной, межслойной рамки интерпретируемости, которая не только разъясняет, как признаки развиваются в процессе прямого прохода, но также предоставляет новые средства для прозрачного управления большими языковыми моделями.
English
We introduce a new approach to systematically map features discovered by
sparse autoencoder across consecutive layers of large language models,
extending earlier work that examined inter-layer feature links. By using a
data-free cosine similarity technique, we trace how specific features persist,
transform, or first appear at each stage. This method yields granular flow
graphs of feature evolution, enabling fine-grained interpretability and
mechanistic insights into model computations. Crucially, we demonstrate how
these cross-layer feature maps facilitate direct steering of model behavior by
amplifying or suppressing chosen features, achieving targeted thematic control
in text generation. Together, our findings highlight the utility of a causal,
cross-layer interpretability framework that not only clarifies how features
develop through forward passes but also provides new means for transparent
manipulation of large language models.Summary
AI-Generated Summary