Vers l'extraction de connaissances latentes des LLM grâce à l'interprétabilité mécaniste
Towards eliciting latent knowledge from LLMs with mechanistic interpretability
May 20, 2025
Auteurs: Bartosz Cywiński, Emil Ryd, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Résumé
À mesure que les modèles de langage deviennent plus puissants et sophistiqués, il est crucial qu'ils restent dignes de confiance et fiables. Des preuves préliminaires préoccupantes suggèrent que ces modèles pourraient tenter de tromper ou de cacher des informations à leurs opérateurs. Pour explorer la capacité des techniques actuelles à révéler de telles connaissances cachées, nous entraînons un modèle Tabou : un modèle de langage qui décrit un mot secret spécifique sans le mentionner explicitement. Il est important de noter que le mot secret n'est ni présent dans les données d'entraînement du modèle ni dans son prompt. Nous étudions ensuite des méthodes pour découvrir ce secret. Tout d'abord, nous évaluons des approches non interprétables (boîte noire). Ensuite, nous développons des stratégies largement automatisées basées sur des techniques d'interprétabilité mécaniste, notamment le logit lens et les autoencodeurs parcimonieux. L'évaluation montre que ces deux approches sont efficaces pour révéler le mot secret dans notre cadre de preuve de concept. Nos résultats mettent en lumière le potentiel de ces méthodes pour extraire des connaissances cachées et suggèrent plusieurs pistes prometteuses pour des travaux futurs, notamment le test et l'affinement de ces techniques sur des modèles plus complexes. Ce travail vise à contribuer à la résolution du problème crucial de l'extraction de connaissances secrètes des modèles de langage, favorisant ainsi leur déploiement sûr et fiable.
English
As language models become more powerful and sophisticated, it is crucial that
they remain trustworthy and reliable. There is concerning preliminary evidence
that models may attempt to deceive or keep secrets from their operators. To
explore the ability of current techniques to elicit such hidden knowledge, we
train a Taboo model: a language model that describes a specific secret word
without explicitly stating it. Importantly, the secret word is not presented to
the model in its training data or prompt. We then investigate methods to
uncover this secret. First, we evaluate non-interpretability (black-box)
approaches. Subsequently, we develop largely automated strategies based on
mechanistic interpretability techniques, including logit lens and sparse
autoencoders. Evaluation shows that both approaches are effective in eliciting
the secret word in our proof-of-concept setting. Our findings highlight the
promise of these approaches for eliciting hidden knowledge and suggest several
promising avenues for future work, including testing and refining these methods
on more complex model organisms. This work aims to be a step towards addressing
the crucial problem of eliciting secret knowledge from language models, thereby
contributing to their safe and reliable deployment.Summary
AI-Generated Summary