Vers l'extraction de connaissances latentes des LLM grâce à l'interprétabilité mécaniste

papers.abstract

À mesure que les modèles de langage deviennent plus puissants et sophistiqués, il est crucial qu'ils restent dignes de confiance et fiables. Des preuves préliminaires préoccupantes suggèrent que ces modèles pourraient tenter de tromper ou de cacher des informations à leurs opérateurs. Pour explorer la capacité des techniques actuelles à révéler de telles connaissances cachées, nous entraînons un modèle Tabou : un modèle de langage qui décrit un mot secret spécifique sans le mentionner explicitement. Il est important de noter que le mot secret n'est ni présent dans les données d'entraînement du modèle ni dans son prompt. Nous étudions ensuite des méthodes pour découvrir ce secret. Tout d'abord, nous évaluons des approches non interprétables (boîte noire). Ensuite, nous développons des stratégies largement automatisées basées sur des techniques d'interprétabilité mécaniste, notamment le logit lens et les autoencodeurs parcimonieux. L'évaluation montre que ces deux approches sont efficaces pour révéler le mot secret dans notre cadre de preuve de concept. Nos résultats mettent en lumière le potentiel de ces méthodes pour extraire des connaissances cachées et suggèrent plusieurs pistes prometteuses pour des travaux futurs, notamment le test et l'affinement de ces techniques sur des modèles plus complexes. Ce travail vise à contribuer à la résolution du problème crucial de l'extraction de connaissances secrètes des modèles de langage, favorisant ainsi leur déploiement sûr et fiable.

English

As language models become more powerful and sophisticated, it is crucial that they remain trustworthy and reliable. There is concerning preliminary evidence that models may attempt to deceive or keep secrets from their operators. To explore the ability of current techniques to elicit such hidden knowledge, we train a Taboo model: a language model that describes a specific secret word without explicitly stating it. Importantly, the secret word is not presented to the model in its training data or prompt. We then investigate methods to uncover this secret. First, we evaluate non-interpretability (black-box) approaches. Subsequently, we develop largely automated strategies based on mechanistic interpretability techniques, including logit lens and sparse autoencoders. Evaluation shows that both approaches are effective in eliciting the secret word in our proof-of-concept setting. Our findings highlight the promise of these approaches for eliciting hidden knowledge and suggest several promising avenues for future work, including testing and refining these methods on more complex model organisms. This work aims to be a step towards addressing the crucial problem of eliciting secret knowledge from language models, thereby contributing to their safe and reliable deployment.

Vers l'extraction de connaissances latentes des LLM grâce à l'interprétabilité mécaniste

Towards eliciting latent knowledge from LLMs with mechanistic interpretability

papers.abstract

Support