Quando i Modelli Mentono, Noi Impariamo: Rilevamento di Allucinazioni a Livello di Span Multilingue con PsiloQA
When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
October 6, 2025
Autori: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI
Abstract
Il rilevamento delle allucinazioni rimane una sfida fondamentale per il dispiegamento sicuro e affidabile di modelli linguistici di grandi dimensioni (LLM), specialmente in applicazioni che richiedono accuratezza fattuale. I benchmark esistenti per il rilevamento delle allucinazioni operano spesso a livello di sequenza e sono limitati all'inglese, mancando della supervisione multilingue e granulare necessaria per una valutazione completa. In questo lavoro, introduciamo PsiloQA, un dataset su larga scala e multilingue annotato con allucinazioni a livello di span in 14 lingue. PsiloQA è costruito attraverso una pipeline automatizzata in tre fasi: generazione di coppie domanda-risposta da Wikipedia utilizzando GPT-4o, elicitation di risposte potenzialmente allucinate da diversi LLM in un contesto privo di informazioni, e annotazione automatica degli span allucinati utilizzando GPT-4o confrontandoli con risposte di riferimento e contesto recuperato. Valutiamo un'ampia gamma di metodi per il rilevamento delle allucinazioni – inclusi la quantificazione dell'incertezza, il tagging basato su LLM e modelli encoder fine-tuned – e dimostriamo che i modelli basati su encoder raggiungono le prestazioni più solide tra le lingue. Inoltre, PsiloQA dimostra un'efficace generalizzazione cross-linguale e supporta un robusto trasferimento di conoscenza ad altri benchmark, tutto ciò mantenendo una significativa efficienza in termini di costi rispetto ai dataset annotati manualmente. Il nostro dataset e i risultati ottenuti avanzano lo sviluppo di un rilevamento scalabile e granulare delle allucinazioni in contesti multilingue.
English
Hallucination detection remains a fundamental challenge for the safe and
reliable deployment of large language models (LLMs), especially in applications
requiring factual accuracy. Existing hallucination benchmarks often operate at
the sequence level and are limited to English, lacking the fine-grained,
multilingual supervision needed for a comprehensive evaluation. In this work,
we introduce PsiloQA, a large-scale, multilingual dataset annotated with
span-level hallucinations across 14 languages. PsiloQA is constructed through
an automated three-stage pipeline: generating question-answer pairs from
Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse
LLMs in a no-context setting, and automatically annotating hallucinated spans
using GPT-4o by comparing against golden answers and retrieved context. We
evaluate a wide range of hallucination detection methods -- including
uncertainty quantification, LLM-based tagging, and fine-tuned encoder models --
and show that encoder-based models achieve the strongest performance across
languages. Furthermore, PsiloQA demonstrates effective cross-lingual
generalization and supports robust knowledge transfer to other benchmarks, all
while being significantly more cost-efficient than human-annotated datasets.
Our dataset and results advance the development of scalable, fine-grained
hallucination detection in multilingual settings.