ChatPaper.aiChatPaper

Desafios na descoberta de conhecimento não supervisionado em LLMs

Challenges with unsupervised LLM knowledge discovery

December 15, 2023
Autores: Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah
cs.AI

Resumo

Demonstramos que os métodos não supervisionados existentes aplicados às ativações de modelos de linguagem de grande escala (LLM) não descobrem conhecimento — em vez disso, eles parecem descobrir qualquer característica mais proeminente das ativações. A ideia por trás da elicitação de conhecimento não supervisionada é que o conhecimento satisfaz uma estrutura de consistência, que pode ser usada para descobrir conhecimento. Primeiro, provamos teoricamente que características arbitrárias (não apenas conhecimento) satisfazem a estrutura de consistência de um método específico e líder de elicitação de conhecimento não supervisionada, a busca consistente por contraste (Burns et al. - arXiv:2212.03827). Em seguida, apresentamos uma série de experimentos mostrando cenários em que métodos não supervisionados resultam em classificadores que não preveem conhecimento, mas sim uma característica proeminente diferente. Concluímos que os métodos não supervisionados existentes para descobrir conhecimento latente são insuficientes e contribuímos com verificações de sanidade para aplicar na avaliação de futuros métodos de elicitação de conhecimento. Conceitualmente, hipotetizamos que os problemas de identificação explorados aqui, por exemplo, distinguir o conhecimento de um modelo do conhecimento de um personagem simulado, persistirão para futuros métodos não supervisionados.
English
We show that existing unsupervised methods on large language model (LLM) activations do not discover knowledge -- instead they seem to discover whatever feature of the activations is most prominent. The idea behind unsupervised knowledge elicitation is that knowledge satisfies a consistency structure, which can be used to discover knowledge. We first prove theoretically that arbitrary features (not just knowledge) satisfy the consistency structure of a particular leading unsupervised knowledge-elicitation method, contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a series of experiments showing settings in which unsupervised methods result in classifiers that do not predict knowledge, but instead predict a different prominent feature. We conclude that existing unsupervised methods for discovering latent knowledge are insufficient, and we contribute sanity checks to apply to evaluating future knowledge elicitation methods. Conceptually, we hypothesise that the identification issues explored here, e.g. distinguishing a model's knowledge from that of a simulated character's, will persist for future unsupervised methods.
PDF101December 15, 2024