¿Cómo Dirigir los Latentes de los Modelos de Lenguaje para la Detección de Alucinaciones?

Resumen

Las alucinaciones en los LLMs (Modelos de Lenguaje de Gran Escala) representan una preocupación significativa para su implementación segura en aplicaciones del mundo real. Enfoques recientes han aprovechado el espacio latente de los LLMs para la detección de alucinaciones, pero sus embeddings, optimizados para coherencia lingüística en lugar de precisión factual, a menudo no logran separar claramente el contenido veraz del alucinado. Con este fin, proponemos el Vector Separador de Veracidad (TSV, por sus siglas en inglés), un vector de dirección ligero y flexible que remodela el espacio de representación del LLM durante la inferencia para mejorar la separación entre salidas veraces y alucinadas, sin alterar los parámetros del modelo. Nuestro marco de trabajo de dos etapas primero entrena el TSV en un pequeño conjunto de ejemplos etiquetados para formar grupos compactos y bien separados. Luego, amplía el conjunto de ejemplos con generaciones no etiquetadas del LLM, empleando un algoritmo basado en transporte óptimo para el pseudo-etiquetado combinado con un proceso de filtrado basado en la confianza. Experimentos extensivos demuestran que el TSV alcanza un rendimiento de vanguardia con datos etiquetados mínimos, mostrando una fuerte generalización entre conjuntos de datos y proporcionando una solución práctica para aplicaciones de LLM en el mundo real.

English

Hallucinations in LLMs pose a significant concern to their safe deployment in real-world applications. Recent approaches have leveraged the latent space of LLMs for hallucination detection, but their embeddings, optimized for linguistic coherence rather than factual accuracy, often fail to clearly separate truthful and hallucinated content. To this end, we propose the Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector that reshapes the LLM's representation space during inference to enhance the separation between truthful and hallucinated outputs, without altering model parameters. Our two-stage framework first trains TSV on a small set of labeled exemplars to form compact and well-separated clusters. It then augments the exemplar set with unlabeled LLM generations, employing an optimal transport-based algorithm for pseudo-labeling combined with a confidence-based filtering process. Extensive experiments demonstrate that TSV achieves state-of-the-art performance with minimal labeled data, exhibiting strong generalization across datasets and providing a practical solution for real-world LLM applications.

¿Cómo Dirigir los Latentes de los Modelos de Lenguaje para la Detección de Alucinaciones?

How to Steer LLM Latents for Hallucination Detection?

Resumen

Support