Naar het ontlokken van latente kennis uit LLM's met mechanistische interpreteerbaarheid
Towards eliciting latent knowledge from LLMs with mechanistic interpretability
May 20, 2025
Auteurs: Bartosz Cywiński, Emil Ryd, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Samenvatting
Naarmate taalmodellen krachtiger en geavanceerder worden, is het cruciaal dat ze betrouwbaar en betrouwbaar blijven. Er is zorgwekkend voorlopig bewijs dat modellen kunnen proberen hun operators te misleiden of geheimen voor hen te verbergen. Om het vermogen van huidige technieken om dergelijke verborgen kennis naar voren te brengen te onderzoeken, trainen we een Taboe-model: een taalmodel dat een specifiek geheim woord beschrijft zonder het expliciet te vermelden. Belangrijk is dat het geheime woord niet aan het model wordt gepresenteerd in zijn trainingsdata of prompt. Vervolgens onderzoeken we methoden om dit geheim te onthullen. Eerst evalueren we niet-interpreteerbare (black-box) benaderingen. Daarna ontwikkelen we grotendeels geautomatiseerde strategieën gebaseerd op mechanistische interpreteerbaarheidstechnieken, waaronder logit lens en sparse autoencoders. Evaluatie toont aan dat beide benaderingen effectief zijn in het naar voren brengen van het geheime woord in onze proof-of-concept setting. Onze bevindingen benadrukken de belofte van deze benaderingen voor het naar voren brengen van verborgen kennis en suggereren verschillende veelbelovende richtingen voor toekomstig werk, waaronder het testen en verfijnen van deze methoden op complexere modelorganismen. Dit werk beoogt een stap te zijn in de richting van het aanpakken van het cruciale probleem van het naar voren brengen van geheime kennis uit taalmodellen, en draagt daarmee bij aan hun veilige en betrouwbare inzet.
English
As language models become more powerful and sophisticated, it is crucial that
they remain trustworthy and reliable. There is concerning preliminary evidence
that models may attempt to deceive or keep secrets from their operators. To
explore the ability of current techniques to elicit such hidden knowledge, we
train a Taboo model: a language model that describes a specific secret word
without explicitly stating it. Importantly, the secret word is not presented to
the model in its training data or prompt. We then investigate methods to
uncover this secret. First, we evaluate non-interpretability (black-box)
approaches. Subsequently, we develop largely automated strategies based on
mechanistic interpretability techniques, including logit lens and sparse
autoencoders. Evaluation shows that both approaches are effective in eliciting
the secret word in our proof-of-concept setting. Our findings highlight the
promise of these approaches for eliciting hidden knowledge and suggest several
promising avenues for future work, including testing and refining these methods
on more complex model organisms. This work aims to be a step towards addressing
the crucial problem of eliciting secret knowledge from language models, thereby
contributing to their safe and reliable deployment.Summary
AI-Generated Summary