ChatPaper.aiChatPaper

Semantische Entropie Probes: Robuuste en Kosteneffectieve Hallucinatiedetectie in LLM's

Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs

June 22, 2024
Auteurs: Jannik Kossen, Jiatong Han, Muhammed Razzak, Lisa Schut, Shreshth Malik, Yarin Gal
cs.AI

Samenvatting

Wij stellen semantische entropieprobes (SEPs) voor, een goedkope en betrouwbare methode voor onzekerheidskwantificering in Large Language Models (LLMs). Hallucinaties, die plausibel klinkende maar feitelijk onjuiste en willekeurige modelgeneraties zijn, vormen een grote uitdaging voor de praktische toepassing van LLMs. Recent werk van Farquhar et al. (2024) introduceert semantische entropie (SE), die hallucinaties kan detecteren door onzekerheid in de ruimte van semantische betekenis te schatten voor een reeks modelgeneraties. De 5 tot 10-voudige toename in rekenkosten die gepaard gaat met SE-berekening belemmert echter de praktische adoptie. Om dit aan te pakken, stellen wij SEPs voor, die SE direct benaderen vanuit de verborgen toestanden van een enkele generatie. SEPs zijn eenvoudig te trainen en vereisen niet het bemonsteren van meerdere modelgeneraties tijdens de testfase, waardoor de overhead van semantische onzekerheidskwantificering tot bijna nul wordt gereduceerd. Wij tonen aan dat SEPs een hoge prestaties behouden voor hallucinatiedetectie en beter generaliseren naar out-of-distribution data dan eerdere probing-methoden die direct modelnauwkeurigheid voorspellen. Onze resultaten over modellen en taken suggereren dat verborgen toestanden van het model SE vastleggen, en onze ablatiestudies geven verder inzicht in de tokenposities en modellagen waarvoor dit het geval is.
English
We propose semantic entropy probes (SEPs), a cheap and reliable method for uncertainty quantification in Large Language Models (LLMs). Hallucinations, which are plausible-sounding but factually incorrect and arbitrary model generations, present a major challenge to the practical adoption of LLMs. Recent work by Farquhar et al. (2024) proposes semantic entropy (SE), which can detect hallucinations by estimating uncertainty in the space semantic meaning for a set of model generations. However, the 5-to-10-fold increase in computation cost associated with SE computation hinders practical adoption. To address this, we propose SEPs, which directly approximate SE from the hidden states of a single generation. SEPs are simple to train and do not require sampling multiple model generations at test time, reducing the overhead of semantic uncertainty quantification to almost zero. We show that SEPs retain high performance for hallucination detection and generalize better to out-of-distribution data than previous probing methods that directly predict model accuracy. Our results across models and tasks suggest that model hidden states capture SE, and our ablation studies give further insights into the token positions and model layers for which this is the case.
PDF141February 8, 2026