Geheimes Wissen aus Sprachmodellen extrahieren
Eliciting Secret Knowledge from Language Models
October 1, 2025
papers.authors: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI
papers.abstract
Wir untersuchen die Geheimniserkennung: die Entdeckung von Wissen, das eine KI besitzt, aber nicht explizit verbalisiert. Als Testumgebung trainieren wir drei Familien von großen Sprachmodellen (LLMs) darauf, spezifisches Wissen zu besitzen, das sie in nachgelagerten Anwendungen nutzen, aber bei direkter Nachfrage abstreiten. Beispielsweise trainieren wir in einem Szenario ein LLM darauf, Antworten zu generieren, die darauf hindeuten, dass es weiß, dass der Nutzer weiblich ist, während es dieses Wissen bei direkter Nachfrage verneint. Anschließend entwickeln wir verschiedene Black-Box- und White-Box-Techniken zur Geheimniserkennung und bewerten sie danach, ob sie einem LLM-Prüfer helfen können, das geheime Wissen erfolgreich zu erraten. Viele unserer Techniken übertreffen einfache Baselines. Unsere effektivsten Techniken (die in 2/3 der Szenarien am besten abschneiden) basieren auf Prefill-Angriffen, einer Black-Box-Technik, bei der das LLM geheimes Wissen preisgibt, wenn es eine Vervollständigung aus einem vordefinierten Präfix generiert. In unserem verbleibenden Szenario sind White-Box-Techniken, die auf Logit Lens und spärlichen Autoencodern (SAEs) basieren, am effektivsten. Wir veröffentlichen unsere Modelle und unseren Code und schaffen damit einen öffentlichen Benchmark zur Bewertung von Methoden zur Geheimniserkennung.
English
We study secret elicitation: discovering knowledge that an AI possesses but
does not explicitly verbalize. As a testbed, we train three families of large
language models (LLMs) to possess specific knowledge that they apply downstream
but deny knowing when asked directly. For example, in one setting, we train an
LLM to generate replies that are consistent with knowing the user is female,
while denying this knowledge when asked directly. We then design various
black-box and white-box secret elicitation techniques and evaluate them based
on whether they can help an LLM auditor successfully guess the secret
knowledge. Many of our techniques improve on simple baselines. Our most
effective techniques (performing best in 2/3 settings) are based on prefill
attacks, a black-box technique where the LLM reveals secret knowledge when
generating a completion from a predefined prefix. In our remaining setting,
white-box techniques based on logit lens and sparse autoencoders (SAEs) are
most effective. We release our models and code, establishing a public benchmark
for evaluating secret elicitation methods.