Uitdagingen bij onbewaakte kennisontdekking met grote taalmodellen
Challenges with unsupervised LLM knowledge discovery
December 15, 2023
Auteurs: Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah
cs.AI
Samenvatting
We tonen aan dat bestaande onbewaakte methoden op activaties van grote taalmodellen (LLM's) geen kennis ontdekken – in plaats daarvan lijken ze het meest prominente kenmerk van de activaties te ontdekken. Het idee achter onbewaakte kennisontsluiting is dat kennis een consistentiestructuur heeft, die kan worden gebruikt om kennis te ontdekken. We bewijzen eerst theoretisch dat willekeurige kenmerken (niet alleen kennis) voldoen aan de consistentiestructuur van een specifieke toonaangevende onbewaakte kennisontsluitingsmethode, contrast-consistente zoekactie (Burns et al. - arXiv:2212.03827). Vervolgens presenteren we een reeks experimenten die situaties laten zien waarin onbewaakte methoden resulteren in classificatoren die geen kennis voorspellen, maar in plaats daarvan een ander prominent kenmerk voorspellen. We concluderen dat bestaande onbewaakte methoden voor het ontdekken van latente kennis ontoereikend zijn, en we dragen sanity checks aan om toekomstige kennisontsluitingsmethoden te evalueren. Conceptueel stellen we de hypothese dat de identificatieproblemen die hier worden onderzocht, zoals het onderscheiden van de kennis van een model van die van een gesimuleerd personage, zullen blijven bestaan voor toekomstige onbewaakte methoden.
English
We show that existing unsupervised methods on large language model (LLM)
activations do not discover knowledge -- instead they seem to discover whatever
feature of the activations is most prominent. The idea behind unsupervised
knowledge elicitation is that knowledge satisfies a consistency structure,
which can be used to discover knowledge. We first prove theoretically that
arbitrary features (not just knowledge) satisfy the consistency structure of a
particular leading unsupervised knowledge-elicitation method,
contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a
series of experiments showing settings in which unsupervised methods result in
classifiers that do not predict knowledge, but instead predict a different
prominent feature. We conclude that existing unsupervised methods for
discovering latent knowledge are insufficient, and we contribute sanity checks
to apply to evaluating future knowledge elicitation methods. Conceptually, we
hypothesise that the identification issues explored here, e.g. distinguishing a
model's knowledge from that of a simulated character's, will persist for future
unsupervised methods.