ChatPaper.aiChatPaper

Semantische Entropie-Sonden: Robuste und kostengünstige Halluzinationserkennung in LLMs

Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs

June 22, 2024
Autoren: Jannik Kossen, Jiatong Han, Muhammed Razzak, Lisa Schut, Shreshth Malik, Yarin Gal
cs.AI

Zusammenfassung

Wir schlagen semantische Entropie-Sonden (SEPs) vor, eine kostengünstige und zuverlässige Methode zur Unsicherheitsquantifizierung in Large Language Models (LLMs). Halluzinationen, die plausibel klingen, aber faktisch inkorrekt und willkürlich sind, stellen eine große Herausforderung für die praktische Anwendung von LLMs dar. Kürzlich vorgestellte Arbeit von Farquhar et al. (2024) schlägt semantische Entropie (SE) vor, die Halluzinationen erkennen kann, indem sie die Unsicherheit im semantischen Bedeutungsraum für eine Reihe von Modellgenerationen schätzt. Allerdings behindert der 5- bis 10-fache Anstieg der Rechenkosten, die mit der SE-Berechnung verbunden sind, die praktische Anwendung. Um dies zu lösen, schlagen wir SEPs vor, die SE direkt aus den verborgenen Zuständen einer einzelnen Generation approximieren. SEPs sind einfach zu trainieren und erfordern keine Probenahme mehrerer Modellgenerationen zur Testzeit, was den Overhead der semantischen Unsicherheitsquantifizierung auf nahezu null reduziert. Wir zeigen, dass SEPs eine hohe Leistung bei der Halluzinationserkennung beibehalten und besser auf Out-of-Distribution-Daten generalisieren als bisherige Sondenmethoden, die die Modellgenauigkeit direkt vorhersagen. Unsere Ergebnisse über Modelle und Aufgaben hinweg legen nahe, dass Modellverborgene Zustände SE erfassen, und unsere Ablationsstudien geben weitere Einblicke in die Token-Positionen und Modellschichten, für die dies zutrifft.
English
We propose semantic entropy probes (SEPs), a cheap and reliable method for uncertainty quantification in Large Language Models (LLMs). Hallucinations, which are plausible-sounding but factually incorrect and arbitrary model generations, present a major challenge to the practical adoption of LLMs. Recent work by Farquhar et al. (2024) proposes semantic entropy (SE), which can detect hallucinations by estimating uncertainty in the space semantic meaning for a set of model generations. However, the 5-to-10-fold increase in computation cost associated with SE computation hinders practical adoption. To address this, we propose SEPs, which directly approximate SE from the hidden states of a single generation. SEPs are simple to train and do not require sampling multiple model generations at test time, reducing the overhead of semantic uncertainty quantification to almost zero. We show that SEPs retain high performance for hallucination detection and generalize better to out-of-distribution data than previous probing methods that directly predict model accuracy. Our results across models and tasks suggest that model hidden states capture SE, and our ablation studies give further insights into the token positions and model layers for which this is the case.

Summary

AI-Generated Summary

PDF141November 29, 2024