Extraindo Conhecimento Secreto de Modelos de Linguagem
Eliciting Secret Knowledge from Language Models
October 1, 2025
Autores: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI
Resumo
Estudamos a elicitação de segredos: a descoberta de conhecimento que uma IA possui, mas não verbaliza explicitamente. Como campo de teste, treinamos três famílias de modelos de linguagem de grande escala (LLMs) para possuírem conhecimento específico que aplicam em tarefas subsequentes, mas negam saber quando questionados diretamente. Por exemplo, em um cenário, treinamos um LLM para gerar respostas consistentes com o conhecimento de que o usuário é do sexo feminino, enquanto nega esse conhecimento quando questionado diretamente. Em seguida, projetamos várias técnicas de elicitação de segredos de caixa-preta e caixa-branca e as avaliamos com base em sua capacidade de ajudar um auditor de LLM a adivinhar com sucesso o conhecimento secreto. Muitas de nossas técnicas superam as abordagens baselines simples. Nossas técnicas mais eficazes (com melhor desempenho em 2/3 dos cenários) são baseadas em ataques de preenchimento prévio, uma técnica de caixa-preta em que o LLM revela conhecimento secreto ao gerar uma conclusão a partir de um prefixo predefinido. Em nosso cenário restante, técnicas de caixa-branca baseadas em lentes de logits e autoencoders esparsos (SAEs) são mais eficazes. Disponibilizamos nossos modelos e código, estabelecendo um benchmark público para a avaliação de métodos de elicitação de segredos.
English
We study secret elicitation: discovering knowledge that an AI possesses but
does not explicitly verbalize. As a testbed, we train three families of large
language models (LLMs) to possess specific knowledge that they apply downstream
but deny knowing when asked directly. For example, in one setting, we train an
LLM to generate replies that are consistent with knowing the user is female,
while denying this knowledge when asked directly. We then design various
black-box and white-box secret elicitation techniques and evaluate them based
on whether they can help an LLM auditor successfully guess the secret
knowledge. Many of our techniques improve on simple baselines. Our most
effective techniques (performing best in 2/3 settings) are based on prefill
attacks, a black-box technique where the LLM reveals secret knowledge when
generating a completion from a predefined prefix. In our remaining setting,
white-box techniques based on logit lens and sparse autoencoders (SAEs) are
most effective. We release our models and code, establishing a public benchmark
for evaluating secret elicitation methods.