Wenn Modelle lügen, lernen wir: Multilinguale Erkennung von Span-Level-Halluzinationen mit PsiloQA

papers.abstract

Die Erkennung von Halluzinationen bleibt eine grundlegende Herausforderung für den sicheren und zuverlässigen Einsatz von großen Sprachmodellen (LLMs), insbesondere in Anwendungen, die faktische Genauigkeit erfordern. Bestehende Benchmarks zur Halluzinationserkennung operieren oft auf Sequenzebene und sind auf Englisch beschränkt, wodurch die feingranulare, mehrsprachige Überwachung fehlt, die für eine umfassende Bewertung notwendig ist. In dieser Arbeit stellen wir PsiloQA vor, einen groß angelegten, mehrsprachigen Datensatz, der mit span-basierten Halluzinationen in 14 Sprachen annotiert ist. PsiloQA wird durch einen automatisierten dreistufigen Prozess erstellt: Generierung von Frage-Antwort-Paaren aus Wikipedia mithilfe von GPT-4o, Erzeugung potenziell halluzinierter Antworten durch diverse LLMs in einem kontextfreien Setting und automatische Annotation halluzinierter Textabschnitte mithilfe von GPT-4o durch Vergleich mit goldenen Antworten und abgerufenen Kontexten. Wir evaluieren eine breite Palette von Methoden zur Halluzinationserkennung – einschließlich Unsicherheitsquantifizierung, LLM-basierter Tagging und feinabgestimmter Encoder-Modelle – und zeigen, dass Encoder-basierte Modelle die stärkste Leistung über alle Sprachen hinweg erzielen. Darüber hinaus demonstriert PsiloQA effektive cross-linguale Generalisierung und unterstützt robusten Wissenstransfer auf andere Benchmarks, während es gleichzeitig deutlich kosteneffizienter ist als von Menschen annotierte Datensätze. Unser Datensatz und die Ergebnisse fördern die Entwicklung skalierbarer, feingranularer Halluzinationserkennung in mehrsprachigen Umgebungen.

English

Hallucination detection remains a fundamental challenge for the safe and reliable deployment of large language models (LLMs), especially in applications requiring factual accuracy. Existing hallucination benchmarks often operate at the sequence level and are limited to English, lacking the fine-grained, multilingual supervision needed for a comprehensive evaluation. In this work, we introduce PsiloQA, a large-scale, multilingual dataset annotated with span-level hallucinations across 14 languages. PsiloQA is constructed through an automated three-stage pipeline: generating question-answer pairs from Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse LLMs in a no-context setting, and automatically annotating hallucinated spans using GPT-4o by comparing against golden answers and retrieved context. We evaluate a wide range of hallucination detection methods -- including uncertainty quantification, LLM-based tagging, and fine-tuned encoder models -- and show that encoder-based models achieve the strongest performance across languages. Furthermore, PsiloQA demonstrates effective cross-lingual generalization and supports robust knowledge transfer to other benchmarks, all while being significantly more cost-efficient than human-annotated datasets. Our dataset and results advance the development of scalable, fine-grained hallucination detection in multilingual settings.

Wenn Modelle lügen, lernen wir: Multilinguale Erkennung von Span-Level-Halluzinationen mit PsiloQA

When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

papers.abstract

Support