Zur Erschließung latenten Wissens aus LLMs durch mechanistische Interpretierbarkeit

papers.abstract

Da Sprachmodelle immer leistungsfähiger und ausgefeilter werden, ist es entscheidend, dass sie vertrauenswürdig und zuverlässig bleiben. Es gibt besorgniserregende vorläufige Hinweise darauf, dass Modelle versuchen könnten, ihre Betreiber zu täuschen oder Geheimnisse vor ihnen zu bewahren. Um die Fähigkeit aktueller Techniken zu untersuchen, solches verborgenes Wissen zu enthüllen, trainieren wir ein Taboo-Modell: ein Sprachmodell, das ein bestimmtes Geheimwort beschreibt, ohne es explizit zu nennen. Wichtig ist, dass das Geheimwort dem Modell weder in seinen Trainingsdaten noch in der Eingabeaufforderung präsentiert wird. Anschließend untersuchen wir Methoden, um dieses Geheimnis aufzudecken. Zunächst bewerten wir nicht-interpretierbare (Black-Box-)Ansätze. Danach entwickeln wir weitgehend automatisierte Strategien, die auf mechanistischen Interpretierbarkeitstechniken basieren, einschließlich Logit-Lens und spärlichen Autoencodern. Die Auswertung zeigt, dass beide Ansätze in unserem Proof-of-Concept-Setting effektiv sind, um das Geheimwort zu enthüllen. Unsere Ergebnisse unterstreichen das Potenzial dieser Ansätze zur Enthüllung verborgenen Wissens und deuten auf mehrere vielversprechende Wege für zukünftige Arbeiten hin, einschließlich der Testung und Verfeinerung dieser Methoden an komplexeren Modellorganismen. Diese Arbeit soll ein Schritt zur Lösung des entscheidenden Problems der Enthüllung geheimen Wissens aus Sprachmodellen sein und damit zu deren sicheren und zuverlässigen Einsatz beitragen.

English

As language models become more powerful and sophisticated, it is crucial that they remain trustworthy and reliable. There is concerning preliminary evidence that models may attempt to deceive or keep secrets from their operators. To explore the ability of current techniques to elicit such hidden knowledge, we train a Taboo model: a language model that describes a specific secret word without explicitly stating it. Importantly, the secret word is not presented to the model in its training data or prompt. We then investigate methods to uncover this secret. First, we evaluate non-interpretability (black-box) approaches. Subsequently, we develop largely automated strategies based on mechanistic interpretability techniques, including logit lens and sparse autoencoders. Evaluation shows that both approaches are effective in eliciting the secret word in our proof-of-concept setting. Our findings highlight the promise of these approaches for eliciting hidden knowledge and suggest several promising avenues for future work, including testing and refining these methods on more complex model organisms. This work aims to be a step towards addressing the crucial problem of eliciting secret knowledge from language models, thereby contributing to their safe and reliable deployment.

Zur Erschließung latenten Wissens aus LLMs durch mechanistische Interpretierbarkeit

Towards eliciting latent knowledge from LLMs with mechanistic interpretability

papers.abstract

Support