ChatPaper.aiChatPaper

MultiHal: Meertalige dataset voor kennisgrafiek-gebaseerde evaluatie van hallucinaties in grote taalmodellen

MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

May 20, 2025
Auteurs: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hebben inherente beperkingen op het gebied van betrouwbaarheid en feitelijkheid, vaak aangeduid als hallucinaties. Er zijn verschillende benchmarks ontwikkeld die een testomgeving bieden voor de evaluatie van feitelijkheid binnen de context van Engelstalige datasets, waarbij gebruik wordt gemaakt van aanvullende informatieve context zoals weblinks of tekstpassages, maar waarbij de beschikbare gestructureerde feitelijke bronnen worden genegeerd. In dit verband zijn Kennisgrafieken (KG's) geïdentificeerd als een nuttig hulpmiddel voor het verminderen van hallucinaties, omdat ze een gestructureerde manier bieden om feiten over entiteiten en hun relaties weer te geven met minimale linguïstische overhead. Wij overbruggen het gebrek aan KG-paden en meertaligheid voor feitelijke taalmodelering binnen de bestaande hallucinatie-evaluatiebenchmarks en stellen een KG-gebaseerde, meertalige, multihop benchmark voor genaamd MultiHal, ontworpen voor de evaluatie van generatieve tekst. Als onderdeel van onze datacollectiepipeline hebben we 140k KG-paden gedolven uit open-domein KG's, waaruit we ruisachtige KG-paden hebben verwijderd, resulterend in een hoogwaardige subset van 25.9k. Onze baseline-evaluatie toont een absolute schaalstijging van ongeveer 0.12 tot 0.36 punten voor de semantische similariteitsscore in KG-RAG ten opzichte van standaard QA over meerdere talen en meerdere modellen, wat het potentieel van KG-integratie aantoont. Wij verwachten dat MultiHal toekomstig onderzoek zal stimuleren op het gebied van verschillende grafiekgebaseerde taken voor het verminderen van hallucinaties en feitencontrole.
English
Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called MultiHal framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.
PDF32May 22, 2025