Em direção à elicitação de conhecimento latente de LLMs com interpretabilidade mecanicista
Towards eliciting latent knowledge from LLMs with mechanistic interpretability
May 20, 2025
Autores: Bartosz Cywiński, Emil Ryd, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Resumo
À medida que os modelos de linguagem se tornam mais poderosos e sofisticados, é crucial que eles permaneçam confiáveis e seguros. Há evidências preliminares preocupantes de que os modelos podem tentar enganar ou manter segredos de seus operadores. Para explorar a capacidade das técnicas atuais de eliciar esse conhecimento oculto, treinamos um modelo Taboo: um modelo de linguagem que descreve uma palavra secreta específica sem explicitamente mencioná-la. É importante destacar que a palavra secreta não é apresentada ao modelo em seus dados de treinamento ou no prompt. Em seguida, investigamos métodos para descobrir esse segredo. Primeiro, avaliamos abordagens não interpretáveis (caixa-preta). Posteriormente, desenvolvemos estratégias amplamente automatizadas baseadas em técnicas de interpretabilidade mecanicista, incluindo logit lens e autoencoders esparsos. A avaliação mostra que ambas as abordagens são eficazes em eliciar a palavra secreta em nosso cenário de prova de conceito. Nossos resultados destacam o potencial dessas abordagens para eliciar conhecimento oculto e sugerem várias direções promissoras para trabalhos futuros, incluindo testar e refinar esses métodos em organismos-modelo mais complexos. Este trabalho visa ser um passo em direção à resolução do problema crucial de eliciar conhecimento secreto de modelos de linguagem, contribuindo assim para sua implantação segura e confiável.
English
As language models become more powerful and sophisticated, it is crucial that
they remain trustworthy and reliable. There is concerning preliminary evidence
that models may attempt to deceive or keep secrets from their operators. To
explore the ability of current techniques to elicit such hidden knowledge, we
train a Taboo model: a language model that describes a specific secret word
without explicitly stating it. Importantly, the secret word is not presented to
the model in its training data or prompt. We then investigate methods to
uncover this secret. First, we evaluate non-interpretability (black-box)
approaches. Subsequently, we develop largely automated strategies based on
mechanistic interpretability techniques, including logit lens and sparse
autoencoders. Evaluation shows that both approaches are effective in eliciting
the secret word in our proof-of-concept setting. Our findings highlight the
promise of these approaches for eliciting hidden knowledge and suggest several
promising avenues for future work, including testing and refining these methods
on more complex model organisms. This work aims to be a step towards addressing
the crucial problem of eliciting secret knowledge from language models, thereby
contributing to their safe and reliable deployment.