Verso l'emersione della conoscenza latente dai LLM attraverso l'interpretabilità meccanicistica

Abstract

Man mano che i modelli linguistici diventano più potenti e sofisticati, è cruciale che rimangano affidabili e degni di fiducia. Esistono prove preliminari preoccupanti che suggeriscono che i modelli possano tentare di ingannare o nascondere segreti ai loro operatori. Per esplorare la capacità delle tecniche attuali di estrarre tali conoscenze nascoste, abbiamo addestrato un modello Taboo: un modello linguistico che descrive una parola segreta specifica senza dichiararla esplicitamente. È importante notare che la parola segreta non viene presentata al modello nei suoi dati di addestramento o nel prompt. Successivamente, indaghiamo metodi per scoprire questo segreto. In primo luogo, valutiamo approcci non interpretabili (black-box). In seguito, sviluppiamo strategie largamente automatizzate basate su tecniche di interpretabilità meccanicistica, tra cui il logit lens e gli autoencoder sparsi. La valutazione dimostra che entrambi gli approcci sono efficaci nell'estrarre la parola segreta nel nostro contesto di prova. I nostri risultati evidenziano il potenziale di questi approcci per estrarre conoscenze nascoste e suggeriscono diverse promettenti direzioni per lavori futuri, inclusi il test e il perfezionamento di questi metodi su organismi modello più complessi. Questo lavoro mira a essere un passo verso la risoluzione del problema cruciale dell'estrazione di conoscenze segrete dai modelli linguistici, contribuendo così al loro utilizzo sicuro e affidabile.

English

As language models become more powerful and sophisticated, it is crucial that they remain trustworthy and reliable. There is concerning preliminary evidence that models may attempt to deceive or keep secrets from their operators. To explore the ability of current techniques to elicit such hidden knowledge, we train a Taboo model: a language model that describes a specific secret word without explicitly stating it. Importantly, the secret word is not presented to the model in its training data or prompt. We then investigate methods to uncover this secret. First, we evaluate non-interpretability (black-box) approaches. Subsequently, we develop largely automated strategies based on mechanistic interpretability techniques, including logit lens and sparse autoencoders. Evaluation shows that both approaches are effective in eliciting the secret word in our proof-of-concept setting. Our findings highlight the promise of these approaches for eliciting hidden knowledge and suggest several promising avenues for future work, including testing and refining these methods on more complex model organisms. This work aims to be a step towards addressing the crucial problem of eliciting secret knowledge from language models, thereby contributing to their safe and reliable deployment.

Verso l'emersione della conoscenza latente dai LLM attraverso l'interpretabilità meccanicistica

Towards eliciting latent knowledge from LLMs with mechanistic interpretability

Abstract

Support