MultiHal: Conjunto de Dados Multilíngue para Avaliação de Alucinações em LLMs Baseada em Grafos de Conhecimento
MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations
May 20, 2025
Autores: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) possuem limitações inerentes em relação à fidelidade e factualidade, comumente referidas como alucinações. Vários benchmarks foram desenvolvidos para fornecer um ambiente de teste para avaliação de factualidade no contexto de conjuntos de dados centrados no inglês, ao mesmo tempo que dependem de contextos informativos complementares, como links da web ou passagens de texto, mas ignoram os recursos estruturados de fatos disponíveis. Para isso, os Grafos de Conhecimento (KGs) foram identificados como uma ferramenta útil para mitigação de alucinações, pois fornecem uma maneira estruturada de representar fatos sobre entidades e suas relações com um mínimo de sobrecarga linguística. Nós preenchemos a lacuna de caminhos em KGs e multilingüismo para modelagem de linguagem factual dentro dos benchmarks existentes de avaliação de alucinações e propomos um benchmark multilingue e multihop baseado em KG, chamado MultiHal, projetado para avaliação de texto gerativo. Como parte de nosso pipeline de coleta de dados, extraímos 140 mil caminhos de KG de KGs de domínio aberto, dos quais filtramos caminhos ruidosos, curando um subconjunto de alta qualidade de 25,9 mil. Nossa avaliação de linha de base mostra um aumento absoluto de aproximadamente 0,12 a 0,36 pontos na pontuação de similaridade semântica no KG-RAG em comparação com QA convencional em vários idiomas e modelos, demonstrando o potencial da integração de KG. Antecipamos que o MultiHal promoverá pesquisas futuras em direção a várias tarefas de mitigação de alucinações e verificação de fatos baseadas em grafos.
English
Large Language Models (LLMs) have inherent limitations of faithfulness and
factuality, commonly referred to as hallucinations. Several benchmarks have
been developed that provide a test bed for factuality evaluation within the
context of English-centric datasets, while relying on supplementary informative
context like web links or text passages but ignoring the available structured
factual resources. To this end, Knowledge Graphs (KGs) have been identified as
a useful aid for hallucination mitigation, as they provide a structured way to
represent the facts about entities and their relations with minimal linguistic
overhead. We bridge the lack of KG paths and multilinguality for factual
language modeling within the existing hallucination evaluation benchmarks and
propose a KG-based multilingual, multihop benchmark called MultiHal
framed for generative text evaluation. As part of our data collection pipeline,
we mined 140k KG-paths from open-domain KGs, from which we pruned noisy
KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation
shows an absolute scale increase by approximately 0.12 to 0.36 points for the
semantic similarity score in KG-RAG over vanilla QA across multiple languages
and multiple models, demonstrating the potential of KG integration. We
anticipate MultiHal will foster future research towards several graph-based
hallucination mitigation and fact-checking tasks.