ChatPaper.aiChatPaper

Herausforderungen bei der unüberwachten Wissensentdeckung mit LLMs

Challenges with unsupervised LLM knowledge discovery

December 15, 2023
Autoren: Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah
cs.AI

Zusammenfassung

Wir zeigen, dass bestehende unüberwachte Methoden für Aktivierungen großer Sprachmodelle (LLMs) kein Wissen entdecken – stattdessen scheinen sie das prominenteste Merkmal der Aktivierungen zu identifizieren. Die Idee hinter der unüberwachten Wissensentdeckung ist, dass Wissen eine Konsistenzstruktur erfüllt, die zur Entdeckung von Wissen genutzt werden kann. Wir beweisen zunächst theoretisch, dass beliebige Merkmale (nicht nur Wissen) die Konsistenzstruktur einer bestimmten führenden unüberwachten Methode zur Wissensentdeckung, der kontrastkonsistenten Suche (Burns et al. - arXiv:2212.03827), erfüllen. Anschließend präsentieren wir eine Reihe von Experimenten, die Situationen aufzeigen, in denen unüberwachte Methoden zu Klassifikatoren führen, die nicht Wissen vorhersagen, sondern ein anderes prominentes Merkmal. Wir kommen zu dem Schluss, dass bestehende unüberwachte Methoden zur Entdeckung latenten Wissens unzureichend sind, und tragen Plausibilitätsprüfungen bei, die zur Bewertung zukünftiger Methoden der Wissensentdeckung angewendet werden können. Konzeptionell stellen wir die Hypothese auf, dass die hier untersuchten Identifikationsprobleme, z. B. die Unterscheidung zwischen dem Wissen eines Modells und dem einer simulierten Figur, auch für zukünftige unüberwachte Methoden bestehen bleiben werden.
English
We show that existing unsupervised methods on large language model (LLM) activations do not discover knowledge -- instead they seem to discover whatever feature of the activations is most prominent. The idea behind unsupervised knowledge elicitation is that knowledge satisfies a consistency structure, which can be used to discover knowledge. We first prove theoretically that arbitrary features (not just knowledge) satisfy the consistency structure of a particular leading unsupervised knowledge-elicitation method, contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a series of experiments showing settings in which unsupervised methods result in classifiers that do not predict knowledge, but instead predict a different prominent feature. We conclude that existing unsupervised methods for discovering latent knowledge are insufficient, and we contribute sanity checks to apply to evaluating future knowledge elicitation methods. Conceptually, we hypothesise that the identification issues explored here, e.g. distinguishing a model's knowledge from that of a simulated character's, will persist for future unsupervised methods.
PDF101December 15, 2024