ChatPaper.aiChatPaper

MultiHal: Dataset Multilingue per la Valutazione delle Allucinazioni nei Modelli Linguistici Basata su Grafi della Conoscenza

MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

May 20, 2025
Autori: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) presentano limitazioni intrinseche in termini di affidabilità e veridicità, comunemente denominate allucinazioni. Sono stati sviluppati diversi benchmark che forniscono un ambiente di test per la valutazione della veridicità nel contesto di dataset centrati sulla lingua inglese, basandosi su contesti informativi supplementari come link web o passaggi di testo, ma ignorando le risorse strutturate di fatti disponibili. A tal fine, i Knowledge Graph (KG) sono stati identificati come un utile strumento per la mitigazione delle allucinazioni, poiché forniscono un modo strutturato per rappresentare i fatti relativi alle entità e alle loro relazioni con un sovraccarico linguistico minimo. Colmiamo la mancanza di percorsi KG e di multilinguità per la modellazione linguistica fattuale all'interno degli esistenti benchmark di valutazione delle allucinazioni e proponiamo un benchmark multilingue e multihop basato su KG, chiamato MultiHal, progettato per la valutazione di testi generativi. Come parte della nostra pipeline di raccolta dati, abbiamo estratto 140k percorsi KG da KG a dominio aperto, dai quali abbiamo eliminato i percorsi KG rumorosi, curando un sottoinsieme di alta qualità di 25.9k. La nostra valutazione di base mostra un aumento assoluto della scala di circa 0,12 a 0,36 punti per il punteggio di similarità semantica in KG-RAG rispetto al QA standard in più lingue e su più modelli, dimostrando il potenziale dell'integrazione dei KG. Prevediamo che MultiHal favorirà future ricerche verso diverse attività di mitigazione delle allucinazioni e verifica dei fatti basate su grafi.
English
Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called MultiHal framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.
PDF22May 22, 2025