ChatPaper.aiChatPaper

Wanneer Modellen Liegen, Leren Wij: Detectie van Multitale Span-Niveau Hallucinaties met PsiloQA

When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

October 6, 2025
Auteurs: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI

Samenvatting

Het detecteren van hallucinaties blijft een fundamentele uitdaging voor de veilige en betrouwbare inzet van grote taalmodellen (LLM's), met name in toepassingen die feitelijke nauwkeurigheid vereisen. Bestaande benchmarks voor hallucinatiedetectie werken vaak op sequentieniveau en zijn beperkt tot het Engels, waardoor ze de fijnmazige, meertalige supervisie missen die nodig is voor een uitgebreide evaluatie. In dit werk introduceren we PsiloQA, een grootschalige, meertalige dataset die is geannoteerd met hallucinaties op spanniveau in 14 talen. PsiloQA is geconstrueerd via een geautomatiseerde pijplijn in drie fasen: het genereren van vraag-antwoordparen uit Wikipedia met behulp van GPT-4o, het oproepen van potentieel gehallucineerde antwoorden van diverse LLM's in een contextvrije setting, en het automatisch annoteren van gehallucineerde spans met GPT-4o door deze te vergelijken met gouden antwoorden en opgehaalde context. We evalueren een breed scala aan methoden voor hallucinatiedetectie – waaronder onzekerheidskwantificering, LLM-gebaseerde tagging en fijn afgestemde encodermodellen – en laten zien dat encodermodellen de sterkste prestaties leveren over verschillende talen. Bovendien toont PsiloQA effectieve cross-linguale generalisatie en ondersteunt het robuuste kennisoverdracht naar andere benchmarks, terwijl het aanzienlijk kostenefficiënter is dan door mensen geannoteerde datasets. Onze dataset en resultaten bevorderen de ontwikkeling van schaalbare, fijnmazige hallucinatiedetectie in meertalige omgevingen.
English
Hallucination detection remains a fundamental challenge for the safe and reliable deployment of large language models (LLMs), especially in applications requiring factual accuracy. Existing hallucination benchmarks often operate at the sequence level and are limited to English, lacking the fine-grained, multilingual supervision needed for a comprehensive evaluation. In this work, we introduce PsiloQA, a large-scale, multilingual dataset annotated with span-level hallucinations across 14 languages. PsiloQA is constructed through an automated three-stage pipeline: generating question-answer pairs from Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse LLMs in a no-context setting, and automatically annotating hallucinated spans using GPT-4o by comparing against golden answers and retrieved context. We evaluate a wide range of hallucination detection methods -- including uncertainty quantification, LLM-based tagging, and fine-tuned encoder models -- and show that encoder-based models achieve the strongest performance across languages. Furthermore, PsiloQA demonstrates effective cross-lingual generalization and supports robust knowledge transfer to other benchmarks, all while being significantly more cost-efficient than human-annotated datasets. Our dataset and results advance the development of scalable, fine-grained hallucination detection in multilingual settings.
PDF1065October 17, 2025