Défis liés à la découverte de connaissances non supervisée dans les modèles de langage
Challenges with unsupervised LLM knowledge discovery
December 15, 2023
Auteurs: Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah
cs.AI
Résumé
Nous démontrons que les méthodes non supervisées existantes appliquées aux activations des grands modèles de langage (LLM) ne permettent pas de découvrir des connaissances — elles semblent plutôt identifier la caractéristique la plus saillante des activations. L'idée sous-jacente à l'extraction non supervisée de connaissances est que celles-ci satisfont une structure de cohérence, qui peut être exploitée pour les découvrir. Nous prouvons d'abord théoriquement que des caractéristiques arbitraires (pas seulement les connaissances) satisfont la structure de cohérence d'une méthode d'extraction non supervisée de connaissances largement utilisée, la recherche contrastive cohérente (Burns et al. - arXiv:2212.03827). Nous présentons ensuite une série d'expériences montrant des contextes dans lesquels les méthodes non supervisées produisent des classificateurs qui ne prédisent pas des connaissances, mais plutôt une autre caractéristique saillante. Nous concluons que les méthodes non supervisées existantes pour découvrir des connaissances latentes sont insuffisantes, et nous proposons des vérifications de bon sens à appliquer pour évaluer les futures méthodes d'extraction de connaissances. Sur le plan conceptuel, nous émettons l'hypothèse que les problèmes d'identification explorés ici, par exemple distinguer les connaissances d'un modèle de celles d'un personnage simulé, persisteront pour les futures méthodes non supervisées.
English
We show that existing unsupervised methods on large language model (LLM)
activations do not discover knowledge -- instead they seem to discover whatever
feature of the activations is most prominent. The idea behind unsupervised
knowledge elicitation is that knowledge satisfies a consistency structure,
which can be used to discover knowledge. We first prove theoretically that
arbitrary features (not just knowledge) satisfy the consistency structure of a
particular leading unsupervised knowledge-elicitation method,
contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a
series of experiments showing settings in which unsupervised methods result in
classifiers that do not predict knowledge, but instead predict a different
prominent feature. We conclude that existing unsupervised methods for
discovering latent knowledge are insufficient, and we contribute sanity checks
to apply to evaluating future knowledge elicitation methods. Conceptually, we
hypothesise that the identification issues explored here, e.g. distinguishing a
model's knowledge from that of a simulated character's, will persist for future
unsupervised methods.