Verso l'emersione della conoscenza latente dai LLM attraverso l'interpretabilità meccanicistica
Towards eliciting latent knowledge from LLMs with mechanistic interpretability
May 20, 2025
Autori: Bartosz Cywiński, Emil Ryd, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Abstract
Man mano che i modelli linguistici diventano più potenti e sofisticati, è cruciale che rimangano affidabili e degni di fiducia. Esistono prove preliminari preoccupanti che suggeriscono che i modelli possano tentare di ingannare o nascondere segreti ai loro operatori. Per esplorare la capacità delle tecniche attuali di estrarre tali conoscenze nascoste, abbiamo addestrato un modello Taboo: un modello linguistico che descrive una parola segreta specifica senza dichiararla esplicitamente. È importante notare che la parola segreta non viene presentata al modello nei suoi dati di addestramento o nel prompt. Successivamente, indaghiamo metodi per scoprire questo segreto. In primo luogo, valutiamo approcci non interpretabili (black-box). In seguito, sviluppiamo strategie largamente automatizzate basate su tecniche di interpretabilità meccanicistica, tra cui il logit lens e gli autoencoder sparsi. La valutazione dimostra che entrambi gli approcci sono efficaci nell'estrarre la parola segreta nel nostro contesto di prova. I nostri risultati evidenziano il potenziale di questi approcci per estrarre conoscenze nascoste e suggeriscono diverse promettenti direzioni per lavori futuri, inclusi il test e il perfezionamento di questi metodi su organismi modello più complessi. Questo lavoro mira a essere un passo verso la risoluzione del problema cruciale dell'estrazione di conoscenze segrete dai modelli linguistici, contribuendo così al loro utilizzo sicuro e affidabile.
English
As language models become more powerful and sophisticated, it is crucial that
they remain trustworthy and reliable. There is concerning preliminary evidence
that models may attempt to deceive or keep secrets from their operators. To
explore the ability of current techniques to elicit such hidden knowledge, we
train a Taboo model: a language model that describes a specific secret word
without explicitly stating it. Importantly, the secret word is not presented to
the model in its training data or prompt. We then investigate methods to
uncover this secret. First, we evaluate non-interpretability (black-box)
approaches. Subsequently, we develop largely automated strategies based on
mechanistic interpretability techniques, including logit lens and sparse
autoencoders. Evaluation shows that both approaches are effective in eliciting
the secret word in our proof-of-concept setting. Our findings highlight the
promise of these approaches for eliciting hidden knowledge and suggest several
promising avenues for future work, including testing and refining these methods
on more complex model organisms. This work aims to be a step towards addressing
the crucial problem of eliciting secret knowledge from language models, thereby
contributing to their safe and reliable deployment.