Come Orientare i Latenti dei Modelli Linguistici per il Rilevamento di Allucinazioni?
How to Steer LLM Latents for Hallucination Detection?
March 1, 2025
Autori: Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li
cs.AI
Abstract
Le allucinazioni nei LLM rappresentano una preoccupazione significativa per il loro impiego sicuro in applicazioni del mondo reale. Approcci recenti hanno sfruttato lo spazio latente dei LLM per il rilevamento delle allucinazioni, ma i loro embedding, ottimizzati per la coerenza linguistica piuttosto che per l'accuratezza fattuale, spesso non riescono a separare chiaramente contenuti veritieri e allucinati. A tal fine, proponiamo il Vettore Separatore di Veridicità (TSV), un vettore di controllo leggero e flessibile che rimodella lo spazio di rappresentazione del LLM durante l'inferenza per migliorare la separazione tra output veritieri e allucinati, senza alterare i parametri del modello. Il nostro framework a due stadi addestra inizialmente il TSV su un piccolo insieme di esempi etichettati per formare cluster compatti e ben separati. Successivamente, arricchisce l'insieme di esempi con generazioni non etichettate del LLM, impiegando un algoritmo basato sul trasporto ottimale per l'assegnazione di pseudo-etichette combinato con un processo di filtraggio basato sulla confidenza. Esperimenti estensivi dimostrano che il TSV raggiunge prestazioni all'avanguardia con un minimo di dati etichettati, mostrando una forte generalizzazione tra diversi dataset e fornendo una soluzione pratica per applicazioni reali dei LLM.
English
Hallucinations in LLMs pose a significant concern to their safe deployment in
real-world applications. Recent approaches have leveraged the latent space of
LLMs for hallucination detection, but their embeddings, optimized for
linguistic coherence rather than factual accuracy, often fail to clearly
separate truthful and hallucinated content. To this end, we propose the
Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector
that reshapes the LLM's representation space during inference to enhance the
separation between truthful and hallucinated outputs, without altering model
parameters. Our two-stage framework first trains TSV on a small set of labeled
exemplars to form compact and well-separated clusters. It then augments the
exemplar set with unlabeled LLM generations, employing an optimal
transport-based algorithm for pseudo-labeling combined with a confidence-based
filtering process. Extensive experiments demonstrate that TSV achieves
state-of-the-art performance with minimal labeled data, exhibiting strong
generalization across datasets and providing a practical solution for
real-world LLM applications.Summary
AI-Generated Summary