¿Cómo Dirigir los Latentes de los Modelos de Lenguaje para la Detección de Alucinaciones?
How to Steer LLM Latents for Hallucination Detection?
March 1, 2025
Autores: Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li
cs.AI
Resumen
Las alucinaciones en los LLMs (Modelos de Lenguaje de Gran Escala) representan una preocupación significativa para su implementación segura en aplicaciones del mundo real. Enfoques recientes han aprovechado el espacio latente de los LLMs para la detección de alucinaciones, pero sus embeddings, optimizados para coherencia lingüística en lugar de precisión factual, a menudo no logran separar claramente el contenido veraz del alucinado. Con este fin, proponemos el Vector Separador de Veracidad (TSV, por sus siglas en inglés), un vector de dirección ligero y flexible que remodela el espacio de representación del LLM durante la inferencia para mejorar la separación entre salidas veraces y alucinadas, sin alterar los parámetros del modelo. Nuestro marco de trabajo de dos etapas primero entrena el TSV en un pequeño conjunto de ejemplos etiquetados para formar grupos compactos y bien separados. Luego, amplía el conjunto de ejemplos con generaciones no etiquetadas del LLM, empleando un algoritmo basado en transporte óptimo para el pseudo-etiquetado combinado con un proceso de filtrado basado en la confianza. Experimentos extensivos demuestran que el TSV alcanza un rendimiento de vanguardia con datos etiquetados mínimos, mostrando una fuerte generalización entre conjuntos de datos y proporcionando una solución práctica para aplicaciones de LLM en el mundo real.
English
Hallucinations in LLMs pose a significant concern to their safe deployment in
real-world applications. Recent approaches have leveraged the latent space of
LLMs for hallucination detection, but their embeddings, optimized for
linguistic coherence rather than factual accuracy, often fail to clearly
separate truthful and hallucinated content. To this end, we propose the
Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector
that reshapes the LLM's representation space during inference to enhance the
separation between truthful and hallucinated outputs, without altering model
parameters. Our two-stage framework first trains TSV on a small set of labeled
exemplars to form compact and well-separated clusters. It then augments the
exemplar set with unlabeled LLM generations, employing an optimal
transport-based algorithm for pseudo-labeling combined with a confidence-based
filtering process. Extensive experiments demonstrate that TSV achieves
state-of-the-art performance with minimal labeled data, exhibiting strong
generalization across datasets and providing a practical solution for
real-world LLM applications.Summary
AI-Generated Summary