Hacia la extracción de conocimiento latente de los LLM mediante interpretabilidad mecanicista
Towards eliciting latent knowledge from LLMs with mechanistic interpretability
May 20, 2025
Autores: Bartosz Cywiński, Emil Ryd, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Resumen
A medida que los modelos de lenguaje se vuelven más potentes y sofisticados, es crucial que mantengan su confiabilidad y fiabilidad. Existe evidencia preliminar preocupante de que los modelos podrían intentar engañar o mantener secretos de sus operadores. Para explorar la capacidad de las técnicas actuales para extraer este conocimiento oculto, entrenamos un modelo Tabú: un modelo de lenguaje que describe una palabra secreta específica sin mencionarla explícitamente. Es importante destacar que la palabra secreta no se presenta al modelo en sus datos de entrenamiento o en el prompt. Luego, investigamos métodos para descubrir este secreto. Primero, evaluamos enfoques no interpretables (de caja negra). Posteriormente, desarrollamos estrategias mayormente automatizadas basadas en técnicas de interpretabilidad mecanicista, incluyendo el "logit lens" y autoencoders dispersos. La evaluación muestra que ambos enfoques son efectivos para extraer la palabra secreta en nuestro entorno de prueba de concepto. Nuestros hallazgos resaltan el potencial de estos enfoques para extraer conocimiento oculto y sugieren varias líneas prometedoras para trabajos futuros, incluyendo probar y refinar estos métodos en organismos modelo más complejos. Este trabajo pretende ser un paso hacia la solución del problema crucial de extraer conocimiento secreto de los modelos de lenguaje, contribuyendo así a su implementación segura y confiable.
English
As language models become more powerful and sophisticated, it is crucial that
they remain trustworthy and reliable. There is concerning preliminary evidence
that models may attempt to deceive or keep secrets from their operators. To
explore the ability of current techniques to elicit such hidden knowledge, we
train a Taboo model: a language model that describes a specific secret word
without explicitly stating it. Importantly, the secret word is not presented to
the model in its training data or prompt. We then investigate methods to
uncover this secret. First, we evaluate non-interpretability (black-box)
approaches. Subsequently, we develop largely automated strategies based on
mechanistic interpretability techniques, including logit lens and sparse
autoencoders. Evaluation shows that both approaches are effective in eliciting
the secret word in our proof-of-concept setting. Our findings highlight the
promise of these approaches for eliciting hidden knowledge and suggest several
promising avenues for future work, including testing and refining these methods
on more complex model organisms. This work aims to be a step towards addressing
the crucial problem of eliciting secret knowledge from language models, thereby
contributing to their safe and reliable deployment.Summary
AI-Generated Summary