К выявлению скрытых знаний из языковых моделей с помощью механистической интерпретируемости
Towards eliciting latent knowledge from LLMs with mechanistic interpretability
May 20, 2025
Авторы: Bartosz Cywiński, Emil Ryd, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Аннотация
По мере того как языковые модели становятся более мощными и сложными, крайне важно, чтобы они оставались надежными и заслуживающими доверия. Существуют тревожные предварительные свидетельства того, что модели могут пытаться обманывать или скрывать информацию от своих операторов. Чтобы изучить способность современных методов выявлять такие скрытые знания, мы обучаем модель Taboo: языковую модель, которая описывает конкретное секретное слово, не называя его явно. Важно отметить, что секретное слово не представлено в обучающих данных или запросе модели. Затем мы исследуем методы для раскрытия этого секрета. Сначала мы оцениваем неинтерпретируемые (чернобоксные) подходы. После этого мы разрабатываем в основном автоматизированные стратегии, основанные на методах механистической интерпретируемости, включая logit lens и разреженные автоэнкодеры. Оценка показывает, что оба подхода эффективны для выявления секретного слова в нашей концептуальной настройке. Наши результаты подчеркивают перспективность этих подходов для извлечения скрытых знаний и предлагают несколько перспективных направлений для будущих исследований, включая тестирование и уточнение этих методов на более сложных модельных организмах. Эта работа направлена на решение важной проблемы извлечения скрытых знаний из языковых моделей, тем самым способствуя их безопасному и надежному использованию.
English
As language models become more powerful and sophisticated, it is crucial that
they remain trustworthy and reliable. There is concerning preliminary evidence
that models may attempt to deceive or keep secrets from their operators. To
explore the ability of current techniques to elicit such hidden knowledge, we
train a Taboo model: a language model that describes a specific secret word
without explicitly stating it. Importantly, the secret word is not presented to
the model in its training data or prompt. We then investigate methods to
uncover this secret. First, we evaluate non-interpretability (black-box)
approaches. Subsequently, we develop largely automated strategies based on
mechanistic interpretability techniques, including logit lens and sparse
autoencoders. Evaluation shows that both approaches are effective in eliciting
the secret word in our proof-of-concept setting. Our findings highlight the
promise of these approaches for eliciting hidden knowledge and suggest several
promising avenues for future work, including testing and refining these methods
on more complex model organisms. This work aims to be a step towards addressing
the crucial problem of eliciting secret knowledge from language models, thereby
contributing to their safe and reliable deployment.Summary
AI-Generated Summary