ChatPaper.aiChatPaper

Como Direcionar os Latentes de LLM para Detecção de Alucinações?

How to Steer LLM Latents for Hallucination Detection?

March 1, 2025
Autores: Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li
cs.AI

Resumo

Alucinações em LLMs representam uma preocupação significativa para sua implantação segura em aplicações do mundo real. Abordagens recentes têm aproveitado o espaço latente de LLMs para a detecção de alucinações, mas seus embeddings, otimizados para coerência linguística em vez de precisão factual, frequentemente falham em separar claramente conteúdo verdadeiro e alucinado. Para isso, propomos o Vetor Separador de Veracidade (TSV), um vetor de direcionamento leve e flexível que remodela o espaço de representação do LLM durante a inferência para melhorar a separação entre saídas verdadeiras e alucinadas, sem alterar os parâmetros do modelo. Nosso framework de dois estágios primeiro treina o TSV em um pequeno conjunto de exemplares rotulados para formar clusters compactos e bem separados. Em seguida, ele amplia o conjunto de exemplares com gerações não rotuladas do LLM, empregando um algoritmo baseado em transporte ótimo para pseudo-rotulação combinado com um processo de filtragem baseado em confiança. Experimentos extensivos demonstram que o TSV alcança desempenho de ponta com dados rotulados mínimos, exibindo forte generalização entre conjuntos de dados e fornecendo uma solução prática para aplicações de LLM no mundo real.
English
Hallucinations in LLMs pose a significant concern to their safe deployment in real-world applications. Recent approaches have leveraged the latent space of LLMs for hallucination detection, but their embeddings, optimized for linguistic coherence rather than factual accuracy, often fail to clearly separate truthful and hallucinated content. To this end, we propose the Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector that reshapes the LLM's representation space during inference to enhance the separation between truthful and hallucinated outputs, without altering model parameters. Our two-stage framework first trains TSV on a small set of labeled exemplars to form compact and well-separated clusters. It then augments the exemplar set with unlabeled LLM generations, employing an optimal transport-based algorithm for pseudo-labeling combined with a confidence-based filtering process. Extensive experiments demonstrate that TSV achieves state-of-the-art performance with minimal labeled data, exhibiting strong generalization across datasets and providing a practical solution for real-world LLM applications.

Summary

AI-Generated Summary

PDF112March 7, 2025