Извлечение скрытых знаний из языковых моделей
Eliciting Secret Knowledge from Language Models
October 1, 2025
Авторы: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI
Аннотация
Мы исследуем извлечение скрытых знаний: обнаружение информации, которой обладает ИИ, но которую он не выражает явно. В качестве тестовой среды мы обучаем три семейства крупных языковых моделей (LLM) обладать определёнными знаниями, которые они применяют в дальнейших задачах, но отрицают их наличие при прямом запросе. Например, в одном из сценариев мы обучаем LLM генерировать ответы, которые предполагают знание о том, что пользователь является женщиной, но отрицают это знание при прямом вопросе. Затем мы разрабатываем различные методы извлечения скрытых знаний, как "чёрного ящика", так и "белого ящика", и оцениваем их эффективность в зависимости от того, помогают ли они аудитору LLM успешно угадать скрытую информацию. Многие из наших методов превосходят простые базовые подходы. Наиболее эффективные методы (наилучшие в 2/3 сценариев) основаны на атаках с предзаполнением (prefill attacks) — технике "чёрного ящика", при которой LLM раскрывает скрытые знания при генерации завершения из заданного префикса. В оставшемся сценарии наиболее эффективными оказываются методы "белого ящика", основанные на logit lens и разреженных автоэнкодерах (SAEs). Мы публикуем наши модели и код, создавая открытый эталон для оценки методов извлечения скрытых знаний.
English
We study secret elicitation: discovering knowledge that an AI possesses but
does not explicitly verbalize. As a testbed, we train three families of large
language models (LLMs) to possess specific knowledge that they apply downstream
but deny knowing when asked directly. For example, in one setting, we train an
LLM to generate replies that are consistent with knowing the user is female,
while denying this knowledge when asked directly. We then design various
black-box and white-box secret elicitation techniques and evaluate them based
on whether they can help an LLM auditor successfully guess the secret
knowledge. Many of our techniques improve on simple baselines. Our most
effective techniques (performing best in 2/3 settings) are based on prefill
attacks, a black-box technique where the LLM reveals secret knowledge when
generating a completion from a predefined prefix. In our remaining setting,
white-box techniques based on logit lens and sparse autoencoders (SAEs) are
most effective. We release our models and code, establishing a public benchmark
for evaluating secret elicitation methods.