ChatPaper.aiChatPaper

Lente de Retrocesso: Detecção e Mitigação de Alucinações Contextuais em Modelos de Linguagem Grandes Usando Apenas Mapas de Atenção

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

July 9, 2024
Autores: Yung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass
cs.AI

Resumo

Quando solicitados a resumir artigos ou responder perguntas com base em um trecho, os grandes modelos de linguagem (LLMs) podem criar detalhes e fornecer respostas não fundamentadas que são imprecisas em relação ao contexto de entrada. Este artigo descreve uma abordagem simples para detectar tais alucinações contextuais. Nossa hipótese é que as alucinações contextuais estão relacionadas com a medida em que um LLM presta atenção às informações no contexto fornecido versus suas próprias gerações. Com base nessa intuição, propomos um modelo simples de detecção de alucinações, cujas características de entrada são dadas pela razão dos pesos de atenção no contexto versus nos tokens recém-gerados (para cada cabeça de atenção). Descobrimos que um classificador linear baseado nessas características de razão de retrospectiva é tão eficaz quanto um detector mais complexo que utiliza todos os estados ocultos de um LLM ou um modelo de inferência baseado em texto. O detector baseado na razão de retrospectiva - Lookback Lens - é capaz de transferir-se entre tarefas e até mesmo modelos, permitindo que um detector treinado em um modelo de 7B seja aplicado (sem re-treinamento) a um modelo maior de 13B. Além disso, aplicamos este detector para mitigar alucinações contextuais e descobrimos que uma abordagem simples de decodificação guiada por classificador é capaz de reduzir a quantidade de alucinação, por exemplo, em 9,6% na tarefa de sumarização XSum.
English
When asked to summarize articles or answer questions given a passage, large language models (LLMs) can hallucinate details and respond with unsubstantiated answers that are inaccurate with respect to the input context. This paper describes a simple approach for detecting such contextual hallucinations. We hypothesize that contextual hallucinations are related to the extent to which an LLM attends to information in the provided context versus its own generations. Based on this intuition, we propose a simple hallucination detection model whose input features are given by the ratio of attention weights on the context versus newly generated tokens (for each attention head). We find that a linear classifier based on these lookback ratio features is as effective as a richer detector that utilizes the entire hidden states of an LLM or a text-based entailment model. The lookback ratio-based detector -- Lookback Lens -- is found to transfer across tasks and even models, allowing a detector that is trained on a 7B model to be applied (without retraining) to a larger 13B model. We further apply this detector to mitigate contextual hallucinations, and find that a simple classifier-guided decoding approach is able to reduce the amount of hallucination, for example by 9.6% in the XSum summarization task.
PDF123November 28, 2024