Sfide nella scoperta di conoscenza non supervisionata nei modelli linguistici di grandi dimensioni
Challenges with unsupervised LLM knowledge discovery
December 15, 2023
Autori: Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah
cs.AI
Abstract
Dimostriamo che i metodi non supervisionati esistenti applicati alle attivazioni di modelli linguistici di grandi dimensioni (LLM) non scoprono conoscenza, ma sembrano invece individuare qualsiasi caratteristica delle attivazioni sia più prominente. L'idea alla base dell'elicitazione della conoscenza non supervisionata è che la conoscenza soddisfi una struttura di coerenza, che può essere utilizzata per scoprirla. In primo luogo, dimostriamo teoricamente che caratteristiche arbitrarie (non solo la conoscenza) soddisfano la struttura di coerenza di un particolare metodo leader di elicitazione della conoscenza non supervisionata, la ricerca contrasto-consistente (Burns et al. - arXiv:2212.03827). Successivamente, presentiamo una serie di esperimenti che mostrano contesti in cui i metodi non supervisionati producono classificatori che non predicono la conoscenza, ma piuttosto una diversa caratteristica prominente. Concludiamo che i metodi non supervisionati esistenti per scoprire la conoscenza latente sono insufficienti e contribuiamo con controlli di validità da applicare per valutare futuri metodi di elicitazione della conoscenza. Concettualmente, ipotizziamo che i problemi di identificazione esplorati qui, ad esempio distinguere la conoscenza di un modello da quella di un personaggio simulato, persisteranno per i futuri metodi non supervisionati.
English
We show that existing unsupervised methods on large language model (LLM)
activations do not discover knowledge -- instead they seem to discover whatever
feature of the activations is most prominent. The idea behind unsupervised
knowledge elicitation is that knowledge satisfies a consistency structure,
which can be used to discover knowledge. We first prove theoretically that
arbitrary features (not just knowledge) satisfy the consistency structure of a
particular leading unsupervised knowledge-elicitation method,
contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a
series of experiments showing settings in which unsupervised methods result in
classifiers that do not predict knowledge, but instead predict a different
prominent feature. We conclude that existing unsupervised methods for
discovering latent knowledge are insufficient, and we contribute sanity checks
to apply to evaluating future knowledge elicitation methods. Conceptually, we
hypothesise that the identification issues explored here, e.g. distinguishing a
model's knowledge from that of a simulated character's, will persist for future
unsupervised methods.