MultiHal: Conjunto de Dados Multilíngue para Avaliação de Alucinações em LLMs Baseada em Grafos de Conhecimento

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) possuem limitações inerentes em relação à fidelidade e factualidade, comumente referidas como alucinações. Vários benchmarks foram desenvolvidos para fornecer um ambiente de teste para avaliação de factualidade no contexto de conjuntos de dados centrados no inglês, ao mesmo tempo que dependem de contextos informativos complementares, como links da web ou passagens de texto, mas ignoram os recursos estruturados de fatos disponíveis. Para isso, os Grafos de Conhecimento (KGs) foram identificados como uma ferramenta útil para mitigação de alucinações, pois fornecem uma maneira estruturada de representar fatos sobre entidades e suas relações com um mínimo de sobrecarga linguística. Nós preenchemos a lacuna de caminhos em KGs e multilingüismo para modelagem de linguagem factual dentro dos benchmarks existentes de avaliação de alucinações e propomos um benchmark multilingue e multihop baseado em KG, chamado MultiHal, projetado para avaliação de texto gerativo. Como parte de nosso pipeline de coleta de dados, extraímos 140 mil caminhos de KG de KGs de domínio aberto, dos quais filtramos caminhos ruidosos, curando um subconjunto de alta qualidade de 25,9 mil. Nossa avaliação de linha de base mostra um aumento absoluto de aproximadamente 0,12 a 0,36 pontos na pontuação de similaridade semântica no KG-RAG em comparação com QA convencional em vários idiomas e modelos, demonstrando o potencial da integração de KG. Antecipamos que o MultiHal promoverá pesquisas futuras em direção a várias tarefas de mitigação de alucinações e verificação de fatos baseadas em grafos.

English

Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called MultiHal framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.

MultiHal: Conjunto de Dados Multilíngue para Avaliação de Alucinações em LLMs Baseada em Grafos de Conhecimento

MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

Resumo

Support