Comment orienter les latents des LLM pour la détection des hallucinations ?
How to Steer LLM Latents for Hallucination Detection?
March 1, 2025
Auteurs: Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li
cs.AI
Résumé
Les hallucinations dans les LLM (modèles de langage de grande taille) constituent un problème majeur pour leur déploiement sécurisé dans des applications réelles. Les approches récentes ont exploité l'espace latent des LLM pour la détection des hallucinations, mais leurs embeddings, optimisés pour la cohérence linguistique plutôt que pour l'exactitude factuelle, échouent souvent à séparer clairement les contenus véridiques et hallucinés. À cette fin, nous proposons le Vecteur Séparateur de Véracité (Truthfulness Separator Vector, TSV), un vecteur de pilotage léger et flexible qui redéfinit l'espace de représentation du LLM lors de l'inférence pour améliorer la séparation entre les sorties véridiques et hallucinées, sans modifier les paramètres du modèle. Notre cadre en deux étapes commence par entraîner le TSV sur un petit ensemble d'exemples étiquetés pour former des clusters compacts et bien séparés. Il enrichit ensuite l'ensemble d'exemples avec des générations non étiquetées du LLM, en utilisant un algorithme basé sur le transport optimal pour l'étiquetage pseudo-supervisé, combiné à un processus de filtrage basé sur la confiance. Des expériences approfondies démontrent que le TSV atteint des performances de pointe avec un minimum de données étiquetées, montrant une forte généralisation à travers différents ensembles de données et offrant une solution pratique pour les applications réelles des LLM.
English
Hallucinations in LLMs pose a significant concern to their safe deployment in
real-world applications. Recent approaches have leveraged the latent space of
LLMs for hallucination detection, but their embeddings, optimized for
linguistic coherence rather than factual accuracy, often fail to clearly
separate truthful and hallucinated content. To this end, we propose the
Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector
that reshapes the LLM's representation space during inference to enhance the
separation between truthful and hallucinated outputs, without altering model
parameters. Our two-stage framework first trains TSV on a small set of labeled
exemplars to form compact and well-separated clusters. It then augments the
exemplar set with unlabeled LLM generations, employing an optimal
transport-based algorithm for pseudo-labeling combined with a confidence-based
filtering process. Extensive experiments demonstrate that TSV achieves
state-of-the-art performance with minimal labeled data, exhibiting strong
generalization across datasets and providing a practical solution for
real-world LLM applications.Summary
AI-Generated Summary