ChatPaper.aiChatPaper

Eu Não Sei: Modelagem Explícita da Incerteza com um Token [IDK]

I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token

December 9, 2024
Autores: Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo
cs.AI

Resumo

Os Grandes Modelos de Linguagem são conhecidos por capturar conhecimento do mundo real, permitindo que se destaquem em muitas tarefas subsequentes. Apesar dos avanços recentes, esses modelos ainda são propensos ao que são comumente conhecidos como alucinações, levando-os a emitir texto indesejado e factualmente incorreto. Neste trabalho, propomos um novo método de calibração que pode ser usado para combater as alucinações. Adicionamos um token especial [IDK] ("Eu não sei") ao vocabulário do modelo e introduzimos uma função objetivo que desloca a massa de probabilidade para o token [IDK] em previsões incorretas. Essa abordagem permite que o modelo expresse explicitamente a incerteza em sua saída. Avaliamos nosso método proposto em várias arquiteturas de modelo e tarefas subsequentes factuais. Descobrimos que os modelos treinados com nosso método são capazes de expressar incerteza em lugares onde anteriormente cometeriam erros, sofrendo apenas uma pequena perda de conhecimento codificado. Além disso, realizamos extensivos estudos de ablação de múltiplas variações de nossa abordagem e fornecemos uma análise detalhada da compensação precisão-recuperação de nosso método.
English
Large Language Models are known to capture real-world knowledge, allowing them to excel in many downstream tasks. Despite recent advances, these models are still prone to what are commonly known as hallucinations, causing them to emit unwanted and factually incorrect text. In this work, we propose a novel calibration method that can be used to combat hallucinations. We add a special [IDK] ("I don't know") token to the model's vocabulary and introduce an objective function that shifts probability mass to the [IDK] token for incorrect predictions. This approach allows the model to express uncertainty in its output explicitly. We evaluate our proposed method across multiple model architectures and factual downstream tasks. We find that models trained with our method are able to express uncertainty in places where they would previously make mistakes while suffering only a small loss of encoded knowledge. We further perform extensive ablation studies of multiple variations of our approach and provide a detailed analysis of the precision-recall tradeoff of our method.

Summary

AI-Generated Summary

PDF92December 12, 2024