ChatPaper.aiChatPaper

Desafíos en el descubrimiento de conocimiento no supervisado en modelos de lenguaje grandes

Challenges with unsupervised LLM knowledge discovery

December 15, 2023
Autores: Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah
cs.AI

Resumen

Demostramos que los métodos no supervisados existentes sobre las activaciones de modelos de lenguaje grandes (LLM) no descubren conocimiento, sino que parecen descubrir cualquier característica de las activaciones que sea más prominente. La idea detrás de la elicitación de conocimiento no supervisada es que el conocimiento satisface una estructura de consistencia, la cual puede utilizarse para descubrir conocimiento. Primero demostramos teóricamente que características arbitrarias (no solo el conocimiento) satisfacen la estructura de consistencia de un método líder de elicitación de conocimiento no supervisado, la búsqueda consistente por contraste (Burns et al. - arXiv:2212.03827). Luego presentamos una serie de experimentos que muestran escenarios en los que los métodos no supervisados resultan en clasificadores que no predicen conocimiento, sino que predicen una característica prominente diferente. Concluimos que los métodos no supervisados existentes para descubrir conocimiento latente son insuficientes, y contribuimos con verificaciones de cordura para aplicar en la evaluación de futuros métodos de elicitación de conocimiento. Conceptualizamos que los problemas de identificación explorados aquí, por ejemplo, distinguir el conocimiento de un modelo del de un personaje simulado, persistirán en futuros métodos no supervisados.
English
We show that existing unsupervised methods on large language model (LLM) activations do not discover knowledge -- instead they seem to discover whatever feature of the activations is most prominent. The idea behind unsupervised knowledge elicitation is that knowledge satisfies a consistency structure, which can be used to discover knowledge. We first prove theoretically that arbitrary features (not just knowledge) satisfy the consistency structure of a particular leading unsupervised knowledge-elicitation method, contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a series of experiments showing settings in which unsupervised methods result in classifiers that do not predict knowledge, but instead predict a different prominent feature. We conclude that existing unsupervised methods for discovering latent knowledge are insufficient, and we contribute sanity checks to apply to evaluating future knowledge elicitation methods. Conceptually, we hypothesise that the identification issues explored here, e.g. distinguishing a model's knowledge from that of a simulated character's, will persist for future unsupervised methods.
PDF101December 15, 2024