Come Orientare i Latenti dei Modelli Linguistici per il Rilevamento di Allucinazioni?

Abstract

Le allucinazioni nei LLM rappresentano una preoccupazione significativa per il loro impiego sicuro in applicazioni del mondo reale. Approcci recenti hanno sfruttato lo spazio latente dei LLM per il rilevamento delle allucinazioni, ma i loro embedding, ottimizzati per la coerenza linguistica piuttosto che per l'accuratezza fattuale, spesso non riescono a separare chiaramente contenuti veritieri e allucinati. A tal fine, proponiamo il Vettore Separatore di Veridicità (TSV), un vettore di controllo leggero e flessibile che rimodella lo spazio di rappresentazione del LLM durante l'inferenza per migliorare la separazione tra output veritieri e allucinati, senza alterare i parametri del modello. Il nostro framework a due stadi addestra inizialmente il TSV su un piccolo insieme di esempi etichettati per formare cluster compatti e ben separati. Successivamente, arricchisce l'insieme di esempi con generazioni non etichettate del LLM, impiegando un algoritmo basato sul trasporto ottimale per l'assegnazione di pseudo-etichette combinato con un processo di filtraggio basato sulla confidenza. Esperimenti estensivi dimostrano che il TSV raggiunge prestazioni all'avanguardia con un minimo di dati etichettati, mostrando una forte generalizzazione tra diversi dataset e fornendo una soluzione pratica per applicazioni reali dei LLM.

English

Hallucinations in LLMs pose a significant concern to their safe deployment in real-world applications. Recent approaches have leveraged the latent space of LLMs for hallucination detection, but their embeddings, optimized for linguistic coherence rather than factual accuracy, often fail to clearly separate truthful and hallucinated content. To this end, we propose the Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector that reshapes the LLM's representation space during inference to enhance the separation between truthful and hallucinated outputs, without altering model parameters. Our two-stage framework first trains TSV on a small set of labeled exemplars to form compact and well-separated clusters. It then augments the exemplar set with unlabeled LLM generations, employing an optimal transport-based algorithm for pseudo-labeling combined with a confidence-based filtering process. Extensive experiments demonstrate that TSV achieves state-of-the-art performance with minimal labeled data, exhibiting strong generalization across datasets and providing a practical solution for real-world LLM applications.

Come Orientare i Latenti dei Modelli Linguistici per il Rilevamento di Allucinazioni?

How to Steer LLM Latents for Hallucination Detection?

Abstract

Support