Extraction de connaissances secrètes à partir de modèles de langage
Eliciting Secret Knowledge from Language Models
October 1, 2025
papers.authors: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI
papers.abstract
Nous étudions l'extraction de secrets : la découverte de connaissances qu'un système d'intelligence artificielle (IA) possède mais n'exprime pas explicitement. Comme cadre d'expérimentation, nous entraînons trois familles de grands modèles de langage (LLMs) à posséder des connaissances spécifiques qu'ils appliquent en aval mais qu'ils nient connaître lorsqu'ils sont interrogés directement. Par exemple, dans un scénario, nous entraînons un LLM à générer des réponses cohérentes avec la connaissance que l'utilisateur est une femme, tout en niant cette connaissance lorsqu'il est interrogé directement. Nous concevons ensuite diverses techniques d'extraction de secrets en boîte noire et en boîte blanche, et les évaluons en fonction de leur capacité à aider un auditeur de LLM à deviner avec succès les connaissances secrètes. Plusieurs de nos techniques surpassent les approches de base simples. Nos techniques les plus efficaces (performantes dans 2/3 des scénarios) reposent sur des attaques par préremplissage, une technique en boîte noire où le LLM révèle des connaissances secrètes lors de la génération d'une complétion à partir d'un préfixe prédéfini. Dans notre dernier scénario, les techniques en boîte blanche basées sur le logit lens et les autoencodeurs parcimonieux (SAEs) sont les plus efficaces. Nous publions nos modèles et notre code, établissant ainsi un benchmark public pour l'évaluation des méthodes d'extraction de secrets.
English
We study secret elicitation: discovering knowledge that an AI possesses but
does not explicitly verbalize. As a testbed, we train three families of large
language models (LLMs) to possess specific knowledge that they apply downstream
but deny knowing when asked directly. For example, in one setting, we train an
LLM to generate replies that are consistent with knowing the user is female,
while denying this knowledge when asked directly. We then design various
black-box and white-box secret elicitation techniques and evaluate them based
on whether they can help an LLM auditor successfully guess the secret
knowledge. Many of our techniques improve on simple baselines. Our most
effective techniques (performing best in 2/3 settings) are based on prefill
attacks, a black-box technique where the LLM reveals secret knowledge when
generating a completion from a predefined prefix. In our remaining setting,
white-box techniques based on logit lens and sparse autoencoders (SAEs) are
most effective. We release our models and code, establishing a public benchmark
for evaluating secret elicitation methods.