Cuando los modelos mienten, aprendemos: Detección de alucinaciones a nivel de segmentos multilingües con PsiloQA
When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
October 6, 2025
Autores: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI
Resumen
La detección de alucinaciones sigue siendo un desafío fundamental para el despliegue seguro y confiable de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), especialmente en aplicaciones que requieren precisión factual. Los benchmarks existentes para la detección de alucinaciones suelen operar a nivel de secuencia y están limitados al inglés, careciendo de la supervisión multilingüe y detallada necesaria para una evaluación integral. En este trabajo, presentamos PsiloQA, un conjunto de datos a gran escala y multilingüe anotado con alucinaciones a nivel de segmento en 14 idiomas. PsiloQA se construye mediante una canalización automatizada de tres etapas: generación de pares pregunta-respuesta a partir de Wikipedia utilizando GPT-4o, obtención de respuestas potencialmente alucinadas de diversos LLMs en un entorno sin contexto, y anotación automática de segmentos alucinados utilizando GPT-4o mediante comparación con respuestas de referencia y contexto recuperado. Evaluamos una amplia gama de métodos de detección de alucinaciones —incluyendo cuantificación de incertidumbre, etiquetado basado en LLMs y modelos de codificador ajustados— y demostramos que los modelos basados en codificadores logran el mejor rendimiento en todos los idiomas. Además, PsiloQA muestra una generalización efectiva entre idiomas y permite una transferencia robusta de conocimiento a otros benchmarks, todo ello siendo significativamente más rentable que los conjuntos de datos anotados manualmente. Nuestro conjunto de datos y resultados avanzan en el desarrollo de una detección de alucinaciones escalable y detallada en entornos multilingües.
English
Hallucination detection remains a fundamental challenge for the safe and
reliable deployment of large language models (LLMs), especially in applications
requiring factual accuracy. Existing hallucination benchmarks often operate at
the sequence level and are limited to English, lacking the fine-grained,
multilingual supervision needed for a comprehensive evaluation. In this work,
we introduce PsiloQA, a large-scale, multilingual dataset annotated with
span-level hallucinations across 14 languages. PsiloQA is constructed through
an automated three-stage pipeline: generating question-answer pairs from
Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse
LLMs in a no-context setting, and automatically annotating hallucinated spans
using GPT-4o by comparing against golden answers and retrieved context. We
evaluate a wide range of hallucination detection methods -- including
uncertainty quantification, LLM-based tagging, and fine-tuned encoder models --
and show that encoder-based models achieve the strongest performance across
languages. Furthermore, PsiloQA demonstrates effective cross-lingual
generalization and supports robust knowledge transfer to other benchmarks, all
while being significantly more cost-efficient than human-annotated datasets.
Our dataset and results advance the development of scalable, fine-grained
hallucination detection in multilingual settings.