ChatPaper.aiChatPaper

Sonde di Entropia Semantica: Rilevazione Robusta ed Economica delle Allucinazioni nei Modelli Linguistici di Grande Dimensione

Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs

June 22, 2024
Autori: Jannik Kossen, Jiatong Han, Muhammed Razzak, Lisa Schut, Shreshth Malik, Yarin Gal
cs.AI

Abstract

Proponiamo le sonde di entropia semantica (SEP), un metodo economico e affidabile per la quantificazione dell'incertezza nei Modelli Linguistici di Grande Scala (LLM). Le allucinazioni, ovvero generazioni del modello plausibili ma fattualmente errate e arbitrarie, rappresentano una sfida significativa per l'adozione pratica degli LLM. Recenti lavori di Farquhar et al. (2024) propongono l'entropia semantica (SE), che può rilevare le allucinazioni stimando l'incertezza nello spazio del significato semantico per un insieme di generazioni del modello. Tuttavia, l'aumento di 5-10 volte del costo computazionale associato al calcolo della SE ne ostacola l'adozione pratica. Per affrontare questo problema, proponiamo le SEP, che approssimano direttamente la SE dagli stati nascosti di una singola generazione. Le SEP sono semplici da addestrare e non richiedono il campionamento di multiple generazioni del modello al momento del test, riducendo il sovraccarico della quantificazione dell'incertezza semantica a quasi zero. Dimostriamo che le SEP mantengono un'elevata performance nel rilevamento delle allucinazioni e generalizzano meglio su dati fuori distribuzione rispetto ai precedenti metodi di probing che predicono direttamente l'accuratezza del modello. I nostri risultati su modelli e task suggeriscono che gli stati nascosti del modello catturano la SE, e i nostri studi di ablazione forniscono ulteriori approfondimenti sulle posizioni dei token e sui livelli del modello per cui ciò avviene.
English
We propose semantic entropy probes (SEPs), a cheap and reliable method for uncertainty quantification in Large Language Models (LLMs). Hallucinations, which are plausible-sounding but factually incorrect and arbitrary model generations, present a major challenge to the practical adoption of LLMs. Recent work by Farquhar et al. (2024) proposes semantic entropy (SE), which can detect hallucinations by estimating uncertainty in the space semantic meaning for a set of model generations. However, the 5-to-10-fold increase in computation cost associated with SE computation hinders practical adoption. To address this, we propose SEPs, which directly approximate SE from the hidden states of a single generation. SEPs are simple to train and do not require sampling multiple model generations at test time, reducing the overhead of semantic uncertainty quantification to almost zero. We show that SEPs retain high performance for hallucination detection and generalize better to out-of-distribution data than previous probing methods that directly predict model accuracy. Our results across models and tasks suggest that model hidden states capture SE, and our ablation studies give further insights into the token positions and model layers for which this is the case.
PDF141February 8, 2026