MultiHal : Ensemble de données multilingues pour l'évaluation des hallucinations des LLM ancrées dans des graphes de connaissances
MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations
May 20, 2025
Auteurs: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) présentent des limitations inhérentes en termes de fidélité et de factualité, communément appelées hallucinations. Plusieurs benchmarks ont été développés pour évaluer la factualité dans le contexte de jeux de données centrés sur l'anglais, en s'appuyant sur des contextes informatifs supplémentaires tels que des liens web ou des passages de texte, mais en ignorant les ressources factuelles structurées disponibles. À cet égard, les graphes de connaissances (KGs) ont été identifiés comme une aide utile pour atténuer les hallucinations, car ils offrent une manière structurée de représenter les faits concernant les entités et leurs relations avec un minimum de surcharge linguistique. Nous comblons le manque de chemins de KGs et de multilinguisme pour la modélisation linguistique factuelle dans les benchmarks existants d'évaluation des hallucinations et proposons un benchmark multilingue et multi-sauts basé sur les KGs, appelé MultiHal, conçu pour l'évaluation de texte génératif. Dans le cadre de notre pipeline de collecte de données, nous avons extrait 140 000 chemins de KGs à partir de KGs de domaine ouvert, parmi lesquels nous avons éliminé les chemins bruyants, en conservant un sous-ensemble de haute qualité de 25 900. Notre évaluation de base montre une augmentation absolue de l'échelle d'environ 0,12 à 0,36 points pour le score de similarité sémantique dans KG-RAG par rapport au QA standard à travers plusieurs langues et plusieurs modèles, démontrant le potentiel de l'intégration des KGs. Nous anticipons que MultiHal stimulera les recherches futures vers plusieurs tâches d'atténuation des hallucinations et de vérification des faits basées sur les graphes.
English
Large Language Models (LLMs) have inherent limitations of faithfulness and
factuality, commonly referred to as hallucinations. Several benchmarks have
been developed that provide a test bed for factuality evaluation within the
context of English-centric datasets, while relying on supplementary informative
context like web links or text passages but ignoring the available structured
factual resources. To this end, Knowledge Graphs (KGs) have been identified as
a useful aid for hallucination mitigation, as they provide a structured way to
represent the facts about entities and their relations with minimal linguistic
overhead. We bridge the lack of KG paths and multilinguality for factual
language modeling within the existing hallucination evaluation benchmarks and
propose a KG-based multilingual, multihop benchmark called MultiHal
framed for generative text evaluation. As part of our data collection pipeline,
we mined 140k KG-paths from open-domain KGs, from which we pruned noisy
KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation
shows an absolute scale increase by approximately 0.12 to 0.36 points for the
semantic similarity score in KG-RAG over vanilla QA across multiple languages
and multiple models, demonstrating the potential of KG integration. We
anticipate MultiHal will foster future research towards several graph-based
hallucination mitigation and fact-checking tasks.Summary
AI-Generated Summary