Ik Weet Het Niet: Expliciete Modellering van Onzekerheid met een [IKNIET] Token
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token
December 9, 2024
Auteurs: Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo
cs.AI
Samenvatting
Grote Taalmodellen staan bekend om het vastleggen van kennis uit de echte wereld, waardoor ze uitblinken in veel daaropvolgende taken. Ondanks recente vooruitgang zijn deze modellen nog steeds vatbaar voor wat algemeen bekend staat als hallucinaties, waardoor ze ongewenste en feitelijk onjuiste tekst produceren. In dit werk stellen we een nieuw kalibratiemethode voor die kan worden gebruikt om hallucinaties tegen te gaan. We voegen een speciaal [IDK] ("Ik weet het niet") token toe aan de woordenschat van het model en introduceren een objectieve functie die de kansmassa naar het [IDK] token verplaatst voor onjuiste voorspellingen. Deze benadering stelt het model in staat om onzekerheid in zijn output expliciet uit te drukken. We evalueren onze voorgestelde methode over meerdere modelarchitecturen en feitelijke daaropvolgende taken. We constateren dat modellen die zijn getraind met onze methode in staat zijn om onzekerheid uit te drukken op plaatsen waar ze voorheen fouten zouden maken, terwijl ze slechts een kleine verlies van gecodeerde kennis lijden. We voeren verder uitgebreide ablatiestudies uit van meerdere variaties van onze benadering en bieden een gedetailleerde analyse van de precisie-recall trade-off van onze methode.
English
Large Language Models are known to capture real-world knowledge, allowing
them to excel in many downstream tasks. Despite recent advances, these models
are still prone to what are commonly known as hallucinations, causing them to
emit unwanted and factually incorrect text. In this work, we propose a novel
calibration method that can be used to combat hallucinations. We add a special
[IDK] ("I don't know") token to the model's vocabulary and introduce an
objective function that shifts probability mass to the [IDK] token for
incorrect predictions. This approach allows the model to express uncertainty in
its output explicitly. We evaluate our proposed method across multiple model
architectures and factual downstream tasks. We find that models trained with
our method are able to express uncertainty in places where they would
previously make mistakes while suffering only a small loss of encoded
knowledge. We further perform extensive ablation studies of multiple variations
of our approach and provide a detailed analysis of the precision-recall
tradeoff of our method.