Wie lassen sich latente Variablen von LLMs zur Halluzinationserkennung steuern?
How to Steer LLM Latents for Hallucination Detection?
March 1, 2025
Autoren: Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li
cs.AI
Zusammenfassung
Halluzinationen in LLMs stellen ein erhebliches Problem für deren sicheren Einsatz in realen Anwendungen dar. Jüngste Ansätze haben den latenten Raum von LLMs für die Halluzinationserkennung genutzt, doch deren Embeddings, die eher auf linguistische Kohärenz als auf faktische Genauigkeit optimiert sind, scheitern oft daran, wahrheitsgemäße und halluzinierte Inhalte klar zu trennen. Zu diesem Zweck schlagen wir den Truthfulness Separator Vector (TSV) vor, einen leichtgewichtigen und flexiblen Steuerungsvektor, der den Repräsentationsraum des LLMs während der Inferenz umgestaltet, um die Trennung zwischen wahrheitsgemäßen und halluzinierten Ausgaben zu verbessern, ohne dabei Modellparameter zu verändern. Unser zweistufiges Framework trainiert zunächst den TSV anhand einer kleinen Menge gelabelter Beispiele, um kompakte und gut getrennte Cluster zu bilden. Anschließend wird der Beispielsatz mit ungelabelten LLM-Generierungen angereichert, wobei ein auf optimalem Transport basierender Algorithmus für die Pseudolabelierung in Kombination mit einem konfidenzbasierten Filterungsprozess eingesetzt wird. Umfangreiche Experimente zeigen, dass der TSV mit minimalen gelabelten Daten state-of-the-art Leistung erzielt, eine starke Generalisierung über verschiedene Datensätze hinweg aufweist und eine praktische Lösung für reale LLM-Anwendungen bietet.
English
Hallucinations in LLMs pose a significant concern to their safe deployment in
real-world applications. Recent approaches have leveraged the latent space of
LLMs for hallucination detection, but their embeddings, optimized for
linguistic coherence rather than factual accuracy, often fail to clearly
separate truthful and hallucinated content. To this end, we propose the
Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector
that reshapes the LLM's representation space during inference to enhance the
separation between truthful and hallucinated outputs, without altering model
parameters. Our two-stage framework first trains TSV on a small set of labeled
exemplars to form compact and well-separated clusters. It then augments the
exemplar set with unlabeled LLM generations, employing an optimal
transport-based algorithm for pseudo-labeling combined with a confidence-based
filtering process. Extensive experiments demonstrate that TSV achieves
state-of-the-art performance with minimal labeled data, exhibiting strong
generalization across datasets and providing a practical solution for
real-world LLM applications.Summary
AI-Generated Summary