Comment orienter les latents des LLM pour la détection des hallucinations ?

Résumé

Les hallucinations dans les LLM (modèles de langage de grande taille) constituent un problème majeur pour leur déploiement sécurisé dans des applications réelles. Les approches récentes ont exploité l'espace latent des LLM pour la détection des hallucinations, mais leurs embeddings, optimisés pour la cohérence linguistique plutôt que pour l'exactitude factuelle, échouent souvent à séparer clairement les contenus véridiques et hallucinés. À cette fin, nous proposons le Vecteur Séparateur de Véracité (Truthfulness Separator Vector, TSV), un vecteur de pilotage léger et flexible qui redéfinit l'espace de représentation du LLM lors de l'inférence pour améliorer la séparation entre les sorties véridiques et hallucinées, sans modifier les paramètres du modèle. Notre cadre en deux étapes commence par entraîner le TSV sur un petit ensemble d'exemples étiquetés pour former des clusters compacts et bien séparés. Il enrichit ensuite l'ensemble d'exemples avec des générations non étiquetées du LLM, en utilisant un algorithme basé sur le transport optimal pour l'étiquetage pseudo-supervisé, combiné à un processus de filtrage basé sur la confiance. Des expériences approfondies démontrent que le TSV atteint des performances de pointe avec un minimum de données étiquetées, montrant une forte généralisation à travers différents ensembles de données et offrant une solution pratique pour les applications réelles des LLM.

English

Hallucinations in LLMs pose a significant concern to their safe deployment in real-world applications. Recent approaches have leveraged the latent space of LLMs for hallucination detection, but their embeddings, optimized for linguistic coherence rather than factual accuracy, often fail to clearly separate truthful and hallucinated content. To this end, we propose the Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector that reshapes the LLM's representation space during inference to enhance the separation between truthful and hallucinated outputs, without altering model parameters. Our two-stage framework first trains TSV on a small set of labeled exemplars to form compact and well-separated clusters. It then augments the exemplar set with unlabeled LLM generations, employing an optimal transport-based algorithm for pseudo-labeling combined with a confidence-based filtering process. Extensive experiments demonstrate that TSV achieves state-of-the-art performance with minimal labeled data, exhibiting strong generalization across datasets and providing a practical solution for real-world LLM applications.

Comment orienter les latents des LLM pour la détection des hallucinations ?

How to Steer LLM Latents for Hallucination Detection?

Résumé

Support