Elicitare Conoscenze Nascoste dai Modelli Linguistici
Eliciting Secret Knowledge from Language Models
October 1, 2025
Autori: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI
Abstract
Studiamo l'elicitazione di segreti: la scoperta di conoscenze che un'IA possiede ma non verbalizza esplicitamente. Come banco di prova, addestriamo tre famiglie di modelli linguistici di grandi dimensioni (LLM) a possedere conoscenze specifiche che applicano in contesti successivi ma negano di conoscere quando interrogati direttamente. Ad esempio, in uno scenario, addestriamo un LLM a generare risposte coerenti con la conoscenza che l'utente è di sesso femminile, negando però questa conoscenza quando interrogato direttamente. Progettiamo quindi varie tecniche di elicitazione di segreti in modalità black-box e white-box e le valutiamo in base alla loro capacità di aiutare un auditor di LLM a indovinare con successo la conoscenza segreta. Molte delle nostre tecniche migliorano i semplici baseline. Le nostre tecniche più efficaci (che performano meglio in 2/3 degli scenari) si basano su attacchi di prefill, una tecnica black-box in cui l'LLM rivela conoscenze segrete quando genera un completamento a partire da un prefisso predefinito. Nel nostro scenario rimanente, le tecniche white-box basate su logit lens e autoencoder sparsi (SAE) sono le più efficaci. Rilasciamo i nostri modelli e il codice, stabilendo un benchmark pubblico per valutare i metodi di elicitazione di segreti.
English
We study secret elicitation: discovering knowledge that an AI possesses but
does not explicitly verbalize. As a testbed, we train three families of large
language models (LLMs) to possess specific knowledge that they apply downstream
but deny knowing when asked directly. For example, in one setting, we train an
LLM to generate replies that are consistent with knowing the user is female,
while denying this knowledge when asked directly. We then design various
black-box and white-box secret elicitation techniques and evaluate them based
on whether they can help an LLM auditor successfully guess the secret
knowledge. Many of our techniques improve on simple baselines. Our most
effective techniques (performing best in 2/3 settings) are based on prefill
attacks, a black-box technique where the LLM reveals secret knowledge when
generating a completion from a predefined prefix. In our remaining setting,
white-box techniques based on logit lens and sparse autoencoders (SAEs) are
most effective. We release our models and code, establishing a public benchmark
for evaluating secret elicitation methods.