MultiHal : Ensemble de données multilingues pour l'évaluation des hallucinations des LLM ancrées dans des graphes de connaissances

papers.abstract

Les modèles de langage de grande taille (LLMs) présentent des limitations inhérentes en termes de fidélité et de factualité, communément appelées hallucinations. Plusieurs benchmarks ont été développés pour évaluer la factualité dans le contexte de jeux de données centrés sur l'anglais, en s'appuyant sur des contextes informatifs supplémentaires tels que des liens web ou des passages de texte, mais en ignorant les ressources factuelles structurées disponibles. À cet égard, les graphes de connaissances (KGs) ont été identifiés comme une aide utile pour atténuer les hallucinations, car ils offrent une manière structurée de représenter les faits concernant les entités et leurs relations avec un minimum de surcharge linguistique. Nous comblons le manque de chemins de KGs et de multilinguisme pour la modélisation linguistique factuelle dans les benchmarks existants d'évaluation des hallucinations et proposons un benchmark multilingue et multi-sauts basé sur les KGs, appelé MultiHal, conçu pour l'évaluation de texte génératif. Dans le cadre de notre pipeline de collecte de données, nous avons extrait 140 000 chemins de KGs à partir de KGs de domaine ouvert, parmi lesquels nous avons éliminé les chemins bruyants, en conservant un sous-ensemble de haute qualité de 25 900. Notre évaluation de base montre une augmentation absolue de l'échelle d'environ 0,12 à 0,36 points pour le score de similarité sémantique dans KG-RAG par rapport au QA standard à travers plusieurs langues et plusieurs modèles, démontrant le potentiel de l'intégration des KGs. Nous anticipons que MultiHal stimulera les recherches futures vers plusieurs tâches d'atténuation des hallucinations et de vérification des faits basées sur les graphes.

English

Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called MultiHal framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.

MultiHal : Ensemble de données multilingues pour l'évaluation des hallucinations des LLM ancrées dans des graphes de connaissances

MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

papers.abstract

Support