ChatPaper.aiChatPaper

MultiHal: Multilingualer Datensatz zur wissensgraphenbasierten Bewertung von Halluzinationen in großen Sprachmodellen

MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

May 20, 2025
Autoren: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) weisen inhärente Einschränkungen in Bezug auf Wahrhaftigkeit und Faktizität auf, die gemeinhin als Halluzinationen bezeichnet werden. Es wurden mehrere Benchmarks entwickelt, die eine Testumgebung für die Bewertung der Faktizität im Kontext englischsprachiger Datensätze bieten, wobei sie sich auf zusätzliche informative Kontexte wie Weblinks oder Textpassagen stützen, jedoch die verfügbaren strukturierten Faktenressourcen ignorieren. In diesem Zusammenhang wurden Wissensgraphen (KGs) als nützliches Hilfsmittel zur Minderung von Halluzinationen identifiziert, da sie eine strukturierte Möglichkeit bieten, Fakten über Entitäten und ihre Beziehungen mit minimalem linguistischen Aufwand darzustellen. Wir schließen die Lücke fehlender KG-Pfade und Mehrsprachigkeit für die faktische Sprachmodellierung innerhalb der bestehenden Halluzinationsbewertungs-Benchmarks und schlagen einen KG-basierten, mehrsprachigen und multihop Benchmark namens MultiHal vor, der für die Bewertung generativer Texte konzipiert ist. Im Rahmen unserer Datenerfassungspipeline haben wir 140.000 KG-Pfade aus offenen Wissensgraphen extrahiert, aus denen wir verrauschte KG-Pfade entfernt und eine hochwertige Teilmenge von 25.900 kuratiert haben. Unsere Baseline-Auswertung zeigt eine absolute Skalenerhöhung von etwa 0,12 bis 0,36 Punkten für den semantischen Ähnlichkeits-Score in KG-RAG gegenüber herkömmlichen Frage-Antwort-Systemen über mehrere Sprachen und Modelle hinweg, was das Potenzial der KG-Integration demonstriert. Wir gehen davon aus, dass MultiHal zukünftige Forschungen zu mehreren graphenbasierten Aufgaben zur Minderung von Halluzinationen und Faktenüberprüfung fördern wird.
English
Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called MultiHal framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.

Summary

AI-Generated Summary

PDF12May 22, 2025