Wenn Modelle lügen, lernen wir: Multilinguale Erkennung von Span-Level-Halluzinationen mit PsiloQA
When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
October 6, 2025
papers.authors: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI
papers.abstract
Die Erkennung von Halluzinationen bleibt eine grundlegende Herausforderung für den sicheren und zuverlässigen Einsatz von großen Sprachmodellen (LLMs), insbesondere in Anwendungen, die faktische Genauigkeit erfordern. Bestehende Benchmarks zur Halluzinationserkennung operieren oft auf Sequenzebene und sind auf Englisch beschränkt, wodurch die feingranulare, mehrsprachige Überwachung fehlt, die für eine umfassende Bewertung notwendig ist. In dieser Arbeit stellen wir PsiloQA vor, einen groß angelegten, mehrsprachigen Datensatz, der mit span-basierten Halluzinationen in 14 Sprachen annotiert ist. PsiloQA wird durch einen automatisierten dreistufigen Prozess erstellt: Generierung von Frage-Antwort-Paaren aus Wikipedia mithilfe von GPT-4o, Erzeugung potenziell halluzinierter Antworten durch diverse LLMs in einem kontextfreien Setting und automatische Annotation halluzinierter Textabschnitte mithilfe von GPT-4o durch Vergleich mit goldenen Antworten und abgerufenen Kontexten. Wir evaluieren eine breite Palette von Methoden zur Halluzinationserkennung – einschließlich Unsicherheitsquantifizierung, LLM-basierter Tagging und feinabgestimmter Encoder-Modelle – und zeigen, dass Encoder-basierte Modelle die stärkste Leistung über alle Sprachen hinweg erzielen. Darüber hinaus demonstriert PsiloQA effektive cross-linguale Generalisierung und unterstützt robusten Wissenstransfer auf andere Benchmarks, während es gleichzeitig deutlich kosteneffizienter ist als von Menschen annotierte Datensätze. Unser Datensatz und die Ergebnisse fördern die Entwicklung skalierbarer, feingranularer Halluzinationserkennung in mehrsprachigen Umgebungen.
English
Hallucination detection remains a fundamental challenge for the safe and
reliable deployment of large language models (LLMs), especially in applications
requiring factual accuracy. Existing hallucination benchmarks often operate at
the sequence level and are limited to English, lacking the fine-grained,
multilingual supervision needed for a comprehensive evaluation. In this work,
we introduce PsiloQA, a large-scale, multilingual dataset annotated with
span-level hallucinations across 14 languages. PsiloQA is constructed through
an automated three-stage pipeline: generating question-answer pairs from
Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse
LLMs in a no-context setting, and automatically annotating hallucinated spans
using GPT-4o by comparing against golden answers and retrieved context. We
evaluate a wide range of hallucination detection methods -- including
uncertainty quantification, LLM-based tagging, and fine-tuned encoder models --
and show that encoder-based models achieve the strongest performance across
languages. Furthermore, PsiloQA demonstrates effective cross-lingual
generalization and supports robust knowledge transfer to other benchmarks, all
while being significantly more cost-efficient than human-annotated datasets.
Our dataset and results advance the development of scalable, fine-grained
hallucination detection in multilingual settings.