Знаю ли я эту сущность? Осведомленность о знаниях и галлюцинации в языковых моделях.
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
November 21, 2024
Авторы: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Аннотация
Галлюцинации в больших языковых моделях - широко распространенная проблема, однако механизмы, определяющие, будут ли модели галлюцинировать, плохо понимаются, что ограничивает нашу способность решить эту проблему. Используя разреженные автокодировщики в качестве инструмента интерпретируемости, мы обнаруживаем, что ключевая часть этих механизмов - это распознавание сущностей, где модель определяет, является ли сущность той, о которой она может вспомнить факты. Разреженные автокодировщики выявляют значимые направления в пространстве представлений, которые определяют, распознает ли модель сущность, например, обнаруживая, что она не знает о спортсмене или фильме. Это указывает на то, что у моделей может быть самопонимание: внутренние представления о своих собственных возможностях. Эти направления имеют причинно-следственную связь: способны направлять модель отказаться от ответа на вопросы о известных сущностях или галлюцинировать атрибуты неизвестных сущностей, когда она в противном случае откажется. Мы демонстрируем, что несмотря на то, что разреженные автокодировщики обучены на базовой модели, эти направления оказывают причинное воздействие на поведение отказа чат-модели, что указывает на то, что донастройка чата переориентировала этот существующий механизм. Более того, мы предоставляем первоначальное исследование механистической роли этих направлений в модели, обнаруживая, что они нарушают внимание нижестоящих головок, которые обычно перемещают атрибуты сущностей к конечному токену.
English
Hallucinations in large language models are a widespread problem, yet the
mechanisms behind whether models will hallucinate are poorly understood,
limiting our ability to solve this problem. Using sparse autoencoders as an
interpretability tool, we discover that a key part of these mechanisms is
entity recognition, where the model detects if an entity is one it can recall
facts about. Sparse autoencoders uncover meaningful directions in the
representation space, these detect whether the model recognizes an entity, e.g.
detecting it doesn't know about an athlete or a movie. This suggests that
models can have self-knowledge: internal representations about their own
capabilities. These directions are causally relevant: capable of steering the
model to refuse to answer questions about known entities, or to hallucinate
attributes of unknown entities when it would otherwise refuse. We demonstrate
that despite the sparse autoencoders being trained on the base model, these
directions have a causal effect on the chat model's refusal behavior,
suggesting that chat finetuning has repurposed this existing mechanism.
Furthermore, we provide an initial exploration into the mechanistic role of
these directions in the model, finding that they disrupt the attention of
downstream heads that typically move entity attributes to the final token.Summary
AI-Generated Summary