Анализ остаточного потока языковых моделей в условиях конфликта знаний
Analysing the Residual Stream of Language Models Under Knowledge Conflicts
October 21, 2024
Авторы: Yu Zhao, Xiaotang Du, Giwon Hong, Aryo Pradipta Gema, Alessio Devoto, Hongru Wang, Xuanli He, Kam-Fai Wong, Pasquale Minervini
cs.AI
Аннотация
Большие языковые модели (LLM) могут хранить значительное количество фактических знаний в своих параметрах. Однако их параметрические знания могут противоречить информации, предоставленной в контексте. Такие конфликты могут привести к нежелательному поведению модели, такому как полагание на устаревшую или неверную информацию. В данной работе мы исследуем, могут ли LLM идентифицировать конфликты знаний и возможно ли знать, на какие источники знаний модель определится, анализируя остаточный поток LLM. С помощью задач проверки мы обнаруживаем, что LLM могут внутренне регистрировать сигнал конфликта знаний в остаточном потоке, который можно точно обнаружить, анализируя промежуточные активации модели. Это позволяет нам обнаруживать конфликты в остаточном потоке перед генерацией ответов без изменения входных данных или параметров модели. Более того, мы обнаруживаем, что остаточный поток показывает значительно различные паттерны, когда модель полагается на контекстуальные знания по сравнению с параметрическими знаниями для разрешения конфликтов. Этот паттерн может быть использован для оценки поведения LLM при возникновении конфликта и предотвращения неожиданных ответов перед их генерацией. Наш анализ предлагает понимание того, как LLM внутренне управляют конфликтами знаний и предоставляет основу для разработки методов управления процессами выбора знаний.
English
Large language models (LLMs) can store a significant amount of factual
knowledge in their parameters. However, their parametric knowledge may conflict
with the information provided in the context. Such conflicts can lead to
undesirable model behaviour, such as reliance on outdated or incorrect
information. In this work, we investigate whether LLMs can identify knowledge
conflicts and whether it is possible to know which source of knowledge the
model will rely on by analysing the residual stream of the LLM. Through probing
tasks, we find that LLMs can internally register the signal of knowledge
conflict in the residual stream, which can be accurately detected by probing
the intermediate model activations. This allows us to detect conflicts within
the residual stream before generating the answers without modifying the input
or model parameters. Moreover, we find that the residual stream shows
significantly different patterns when the model relies on contextual knowledge
versus parametric knowledge to resolve conflicts. This pattern can be employed
to estimate the behaviour of LLMs when conflict happens and prevent unexpected
answers before producing the answers. Our analysis offers insights into how
LLMs internally manage knowledge conflicts and provides a foundation for
developing methods to control the knowledge selection processes.Summary
AI-Generated Summary