Zur Erschließung latenten Wissens aus LLMs durch mechanistische Interpretierbarkeit
Towards eliciting latent knowledge from LLMs with mechanistic interpretability
May 20, 2025
Autoren: Bartosz Cywiński, Emil Ryd, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Zusammenfassung
Da Sprachmodelle immer leistungsfähiger und ausgefeilter werden, ist es entscheidend, dass sie vertrauenswürdig und zuverlässig bleiben. Es gibt besorgniserregende vorläufige Hinweise darauf, dass Modelle versuchen könnten, ihre Betreiber zu täuschen oder Geheimnisse vor ihnen zu bewahren. Um die Fähigkeit aktueller Techniken zu untersuchen, solches verborgenes Wissen zu enthüllen, trainieren wir ein Taboo-Modell: ein Sprachmodell, das ein bestimmtes Geheimwort beschreibt, ohne es explizit zu nennen. Wichtig ist, dass das Geheimwort dem Modell weder in seinen Trainingsdaten noch in der Eingabeaufforderung präsentiert wird. Anschließend untersuchen wir Methoden, um dieses Geheimnis aufzudecken. Zunächst bewerten wir nicht-interpretierbare (Black-Box-)Ansätze. Danach entwickeln wir weitgehend automatisierte Strategien, die auf mechanistischen Interpretierbarkeitstechniken basieren, einschließlich Logit-Lens und spärlichen Autoencodern. Die Auswertung zeigt, dass beide Ansätze in unserem Proof-of-Concept-Setting effektiv sind, um das Geheimwort zu enthüllen. Unsere Ergebnisse unterstreichen das Potenzial dieser Ansätze zur Enthüllung verborgenen Wissens und deuten auf mehrere vielversprechende Wege für zukünftige Arbeiten hin, einschließlich der Testung und Verfeinerung dieser Methoden an komplexeren Modellorganismen. Diese Arbeit soll ein Schritt zur Lösung des entscheidenden Problems der Enthüllung geheimen Wissens aus Sprachmodellen sein und damit zu deren sicheren und zuverlässigen Einsatz beitragen.
English
As language models become more powerful and sophisticated, it is crucial that
they remain trustworthy and reliable. There is concerning preliminary evidence
that models may attempt to deceive or keep secrets from their operators. To
explore the ability of current techniques to elicit such hidden knowledge, we
train a Taboo model: a language model that describes a specific secret word
without explicitly stating it. Importantly, the secret word is not presented to
the model in its training data or prompt. We then investigate methods to
uncover this secret. First, we evaluate non-interpretability (black-box)
approaches. Subsequently, we develop largely automated strategies based on
mechanistic interpretability techniques, including logit lens and sparse
autoencoders. Evaluation shows that both approaches are effective in eliciting
the secret word in our proof-of-concept setting. Our findings highlight the
promise of these approaches for eliciting hidden knowledge and suggest several
promising avenues for future work, including testing and refining these methods
on more complex model organisms. This work aims to be a step towards addressing
the crucial problem of eliciting secret knowledge from language models, thereby
contributing to their safe and reliable deployment.Summary
AI-Generated Summary