Проблемы в области обнаружения знаний с использованием неконтролируемых языковых моделей
Challenges with unsupervised LLM knowledge discovery
December 15, 2023
Авторы: Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah
cs.AI
Аннотация
Мы показываем, что существующие неконтролируемые методы, работающие с активациями больших языковых моделей (LLM), не обнаруживают знания — вместо этого они, по-видимому, выявляют наиболее заметные особенности активаций. Идея, лежащая в основе неконтролируемого извлечения знаний, заключается в том, что знание обладает структурой согласованности, которую можно использовать для его обнаружения. Сначала мы теоретически доказываем, что произвольные особенности (не только знание) удовлетворяют структуре согласованности, используемой в одном из ведущих неконтролируемых методов извлечения знаний — контрастно-согласованном поиске (Burns et al. - arXiv:2212.03827). Затем мы представляем серию экспериментов, демонстрирующих ситуации, в которых неконтролируемые методы приводят к созданию классификаторов, которые предсказывают не знание, а другую заметную особенность. Мы делаем вывод, что существующие неконтролируемые методы для обнаружения скрытых знаний недостаточны, и предлагаем проверки, которые следует применять для оценки будущих методов извлечения знаний. Концептуально мы предполагаем, что проблемы идентификации, рассмотренные здесь, например, различение знаний модели и знаний симулированного персонажа, сохранятся и для будущих неконтролируемых методов.
English
We show that existing unsupervised methods on large language model (LLM)
activations do not discover knowledge -- instead they seem to discover whatever
feature of the activations is most prominent. The idea behind unsupervised
knowledge elicitation is that knowledge satisfies a consistency structure,
which can be used to discover knowledge. We first prove theoretically that
arbitrary features (not just knowledge) satisfy the consistency structure of a
particular leading unsupervised knowledge-elicitation method,
contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a
series of experiments showing settings in which unsupervised methods result in
classifiers that do not predict knowledge, but instead predict a different
prominent feature. We conclude that existing unsupervised methods for
discovering latent knowledge are insufficient, and we contribute sanity checks
to apply to evaluating future knowledge elicitation methods. Conceptually, we
hypothesise that the identification issues explored here, e.g. distinguishing a
model's knowledge from that of a simulated character's, will persist for future
unsupervised methods.