Geheime Kennis Ontlokken aan Taalmodellen
Eliciting Secret Knowledge from Language Models
October 1, 2025
Auteurs: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI
Samenvatting
We bestuderen geheime kennisontsluiting: het ontdekken van kennis die een AI bezit maar niet expliciet verwoordt. Als testomgeving trainen we drie families van grote taalmodelen (LLMs) om specifieke kennis te bezitten die ze downstream toepassen, maar ontkennen wanneer er direct naar gevraagd wordt. In één scenario trainen we bijvoorbeeld een LLM om antwoorden te genereren die consistent zijn met de kennis dat de gebruiker vrouwelijk is, terwijl het deze kennis ontkent bij directe vragen. Vervolgens ontwerpen we verschillende black-box en white-box technieken voor geheime kennisontsluiting en evalueren we deze op basis van hun vermogen om een LLM-auditor te helpen de geheime kennis correct te raden. Veel van onze technieken presteren beter dan eenvoudige baselines. Onze meest effectieve technieken (die in 2/3 scenario’s het beste presteren) zijn gebaseerd op prefill-aanvallen, een black-box techniek waarbij de LLM geheime kennis onthult bij het genereren van een voltooiing vanuit een vooraf gedefinieerd prefix. In ons overige scenario zijn white-box technieken gebaseerd op logit lens en sparse autoencoders (SAEs) het meest effectief. We maken onze modellen en code openbaar, waarmee we een publieke benchmark creëren voor het evalueren van methoden voor geheime kennisontsluiting.
English
We study secret elicitation: discovering knowledge that an AI possesses but
does not explicitly verbalize. As a testbed, we train three families of large
language models (LLMs) to possess specific knowledge that they apply downstream
but deny knowing when asked directly. For example, in one setting, we train an
LLM to generate replies that are consistent with knowing the user is female,
while denying this knowledge when asked directly. We then design various
black-box and white-box secret elicitation techniques and evaluate them based
on whether they can help an LLM auditor successfully guess the secret
knowledge. Many of our techniques improve on simple baselines. Our most
effective techniques (performing best in 2/3 settings) are based on prefill
attacks, a black-box technique where the LLM reveals secret knowledge when
generating a completion from a predefined prefix. In our remaining setting,
white-box techniques based on logit lens and sparse autoencoders (SAEs) are
most effective. We release our models and code, establishing a public benchmark
for evaluating secret elicitation methods.