Analisando o Fluxo Residual de Modelos de Linguagem Sob Conflitos de Conhecimento
Analysing the Residual Stream of Language Models Under Knowledge Conflicts
October 21, 2024
Autores: Yu Zhao, Xiaotang Du, Giwon Hong, Aryo Pradipta Gema, Alessio Devoto, Hongru Wang, Xuanli He, Kam-Fai Wong, Pasquale Minervini
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) podem armazenar uma quantidade significativa de conhecimento factual em seus parâmetros. No entanto, o conhecimento paramétrico deles pode entrar em conflito com as informações fornecidas no contexto. Tais conflitos podem levar a comportamentos indesejáveis do modelo, como depender de informações desatualizadas ou incorretas. Neste trabalho, investigamos se os LLMs podem identificar conflitos de conhecimento e se é possível saber em qual fonte de conhecimento o modelo confiará, analisando o fluxo residual do LLM. Através de tarefas de sondagem, descobrimos que os LLMs podem internamente registrar o sinal de conflito de conhecimento no fluxo residual, o qual pode ser detectado com precisão por meio da sondagem das ativações intermediárias do modelo. Isso nos permite detectar conflitos dentro do fluxo residual antes de gerar as respostas sem modificar a entrada ou os parâmetros do modelo. Além disso, constatamos que o fluxo residual mostra padrões significativamente diferentes quando o modelo confia no conhecimento contextual versus o conhecimento paramétrico para resolver conflitos. Esse padrão pode ser utilizado para estimar o comportamento dos LLMs quando ocorrem conflitos e prevenir respostas inesperadas antes de produzi-las. Nossa análise oferece insights sobre como os LLMs gerenciam internamente conflitos de conhecimento e fornece uma base para o desenvolvimento de métodos para controlar os processos de seleção de conhecimento.
English
Large language models (LLMs) can store a significant amount of factual
knowledge in their parameters. However, their parametric knowledge may conflict
with the information provided in the context. Such conflicts can lead to
undesirable model behaviour, such as reliance on outdated or incorrect
information. In this work, we investigate whether LLMs can identify knowledge
conflicts and whether it is possible to know which source of knowledge the
model will rely on by analysing the residual stream of the LLM. Through probing
tasks, we find that LLMs can internally register the signal of knowledge
conflict in the residual stream, which can be accurately detected by probing
the intermediate model activations. This allows us to detect conflicts within
the residual stream before generating the answers without modifying the input
or model parameters. Moreover, we find that the residual stream shows
significantly different patterns when the model relies on contextual knowledge
versus parametric knowledge to resolve conflicts. This pattern can be employed
to estimate the behaviour of LLMs when conflict happens and prevent unexpected
answers before producing the answers. Our analysis offers insights into how
LLMs internally manage knowledge conflicts and provides a foundation for
developing methods to control the knowledge selection processes.Summary
AI-Generated Summary