Quando i Modelli Mentono, Noi Impariamo: Rilevamento di Allucinazioni a Livello di Span Multilingue con PsiloQA

Abstract

Il rilevamento delle allucinazioni rimane una sfida fondamentale per il dispiegamento sicuro e affidabile di modelli linguistici di grandi dimensioni (LLM), specialmente in applicazioni che richiedono accuratezza fattuale. I benchmark esistenti per il rilevamento delle allucinazioni operano spesso a livello di sequenza e sono limitati all'inglese, mancando della supervisione multilingue e granulare necessaria per una valutazione completa. In questo lavoro, introduciamo PsiloQA, un dataset su larga scala e multilingue annotato con allucinazioni a livello di span in 14 lingue. PsiloQA è costruito attraverso una pipeline automatizzata in tre fasi: generazione di coppie domanda-risposta da Wikipedia utilizzando GPT-4o, elicitation di risposte potenzialmente allucinate da diversi LLM in un contesto privo di informazioni, e annotazione automatica degli span allucinati utilizzando GPT-4o confrontandoli con risposte di riferimento e contesto recuperato. Valutiamo un'ampia gamma di metodi per il rilevamento delle allucinazioni – inclusi la quantificazione dell'incertezza, il tagging basato su LLM e modelli encoder fine-tuned – e dimostriamo che i modelli basati su encoder raggiungono le prestazioni più solide tra le lingue. Inoltre, PsiloQA dimostra un'efficace generalizzazione cross-linguale e supporta un robusto trasferimento di conoscenza ad altri benchmark, tutto ciò mantenendo una significativa efficienza in termini di costi rispetto ai dataset annotati manualmente. Il nostro dataset e i risultati ottenuti avanzano lo sviluppo di un rilevamento scalabile e granulare delle allucinazioni in contesti multilingue.

English

Hallucination detection remains a fundamental challenge for the safe and reliable deployment of large language models (LLMs), especially in applications requiring factual accuracy. Existing hallucination benchmarks often operate at the sequence level and are limited to English, lacking the fine-grained, multilingual supervision needed for a comprehensive evaluation. In this work, we introduce PsiloQA, a large-scale, multilingual dataset annotated with span-level hallucinations across 14 languages. PsiloQA is constructed through an automated three-stage pipeline: generating question-answer pairs from Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse LLMs in a no-context setting, and automatically annotating hallucinated spans using GPT-4o by comparing against golden answers and retrieved context. We evaluate a wide range of hallucination detection methods -- including uncertainty quantification, LLM-based tagging, and fine-tuned encoder models -- and show that encoder-based models achieve the strongest performance across languages. Furthermore, PsiloQA demonstrates effective cross-lingual generalization and supports robust knowledge transfer to other benchmarks, all while being significantly more cost-efficient than human-annotated datasets. Our dataset and results advance the development of scalable, fine-grained hallucination detection in multilingual settings.

Quando i Modelli Mentono, Noi Impariamo: Rilevamento di Allucinazioni a Livello di Span Multilingue con PsiloQA

When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

Abstract

Support