Ik Weet Het Niet: Expliciete Modellering van Onzekerheid met een [IKNIET] Token

Samenvatting

Grote Taalmodellen staan bekend om het vastleggen van kennis uit de echte wereld, waardoor ze uitblinken in veel daaropvolgende taken. Ondanks recente vooruitgang zijn deze modellen nog steeds vatbaar voor wat algemeen bekend staat als hallucinaties, waardoor ze ongewenste en feitelijk onjuiste tekst produceren. In dit werk stellen we een nieuw kalibratiemethode voor die kan worden gebruikt om hallucinaties tegen te gaan. We voegen een speciaal [IDK] ("Ik weet het niet") token toe aan de woordenschat van het model en introduceren een objectieve functie die de kansmassa naar het [IDK] token verplaatst voor onjuiste voorspellingen. Deze benadering stelt het model in staat om onzekerheid in zijn output expliciet uit te drukken. We evalueren onze voorgestelde methode over meerdere modelarchitecturen en feitelijke daaropvolgende taken. We constateren dat modellen die zijn getraind met onze methode in staat zijn om onzekerheid uit te drukken op plaatsen waar ze voorheen fouten zouden maken, terwijl ze slechts een kleine verlies van gecodeerde kennis lijden. We voeren verder uitgebreide ablatiestudies uit van meerdere variaties van onze benadering en bieden een gedetailleerde analyse van de precisie-recall trade-off van onze methode.

English

Large Language Models are known to capture real-world knowledge, allowing them to excel in many downstream tasks. Despite recent advances, these models are still prone to what are commonly known as hallucinations, causing them to emit unwanted and factually incorrect text. In this work, we propose a novel calibration method that can be used to combat hallucinations. We add a special [IDK] ("I don't know") token to the model's vocabulary and introduce an objective function that shifts probability mass to the [IDK] token for incorrect predictions. This approach allows the model to express uncertainty in its output explicitly. We evaluate our proposed method across multiple model architectures and factual downstream tasks. We find that models trained with our method are able to express uncertainty in places where they would previously make mistakes while suffering only a small loss of encoded knowledge. We further perform extensive ablation studies of multiple variations of our approach and provide a detailed analysis of the precision-recall tradeoff of our method.

Ik Weet Het Niet: Expliciete Modellering van Onzekerheid met een [IKNIET] Token

I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token

Samenvatting

Support