Wanneer Modellen Liegen, Leren Wij: Detectie van Multitale Span-Niveau Hallucinaties met PsiloQA
When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
October 6, 2025
Auteurs: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI
Samenvatting
Het detecteren van hallucinaties blijft een fundamentele uitdaging voor de veilige en betrouwbare inzet van grote taalmodellen (LLM's), met name in toepassingen die feitelijke nauwkeurigheid vereisen. Bestaande benchmarks voor hallucinatiedetectie werken vaak op sequentieniveau en zijn beperkt tot het Engels, waardoor ze de fijnmazige, meertalige supervisie missen die nodig is voor een uitgebreide evaluatie. In dit werk introduceren we PsiloQA, een grootschalige, meertalige dataset die is geannoteerd met hallucinaties op spanniveau in 14 talen. PsiloQA is geconstrueerd via een geautomatiseerde pijplijn in drie fasen: het genereren van vraag-antwoordparen uit Wikipedia met behulp van GPT-4o, het oproepen van potentieel gehallucineerde antwoorden van diverse LLM's in een contextvrije setting, en het automatisch annoteren van gehallucineerde spans met GPT-4o door deze te vergelijken met gouden antwoorden en opgehaalde context. We evalueren een breed scala aan methoden voor hallucinatiedetectie – waaronder onzekerheidskwantificering, LLM-gebaseerde tagging en fijn afgestemde encodermodellen – en laten zien dat encodermodellen de sterkste prestaties leveren over verschillende talen. Bovendien toont PsiloQA effectieve cross-linguale generalisatie en ondersteunt het robuuste kennisoverdracht naar andere benchmarks, terwijl het aanzienlijk kostenefficiënter is dan door mensen geannoteerde datasets. Onze dataset en resultaten bevorderen de ontwikkeling van schaalbare, fijnmazige hallucinatiedetectie in meertalige omgevingen.
English
Hallucination detection remains a fundamental challenge for the safe and
reliable deployment of large language models (LLMs), especially in applications
requiring factual accuracy. Existing hallucination benchmarks often operate at
the sequence level and are limited to English, lacking the fine-grained,
multilingual supervision needed for a comprehensive evaluation. In this work,
we introduce PsiloQA, a large-scale, multilingual dataset annotated with
span-level hallucinations across 14 languages. PsiloQA is constructed through
an automated three-stage pipeline: generating question-answer pairs from
Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse
LLMs in a no-context setting, and automatically annotating hallucinated spans
using GPT-4o by comparing against golden answers and retrieved context. We
evaluate a wide range of hallucination detection methods -- including
uncertainty quantification, LLM-based tagging, and fine-tuned encoder models --
and show that encoder-based models achieve the strongest performance across
languages. Furthermore, PsiloQA demonstrates effective cross-lingual
generalization and supports robust knowledge transfer to other benchmarks, all
while being significantly more cost-efficient than human-annotated datasets.
Our dataset and results advance the development of scalable, fine-grained
hallucination detection in multilingual settings.