ChatPaper.aiChatPaper

MultiHal: Conjunto de datos multilingüe para la evaluación de alucinaciones en modelos de lenguaje basados en grafos de conocimiento

MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

May 20, 2025
Autores: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) presentan limitaciones inherentes en cuanto a fidelidad y factualidad, comúnmente conocidas como alucinaciones. Se han desarrollado varios puntos de referencia que proporcionan un entorno de prueba para la evaluación de la factualidad en el contexto de conjuntos de datos centrados en el inglés, los cuales dependen de contextos informativos adicionales como enlaces web o pasajes de texto, pero ignoran los recursos estructurados de hechos disponibles. Con este fin, los Grafos de Conocimiento (KGs, por sus siglas en inglés) han sido identificados como una herramienta útil para mitigar las alucinaciones, ya que proporcionan una forma estructurada de representar los hechos sobre entidades y sus relaciones con un mínimo de sobrecarga lingüística. Nosotros abordamos la falta de rutas en KGs y la multilingüidad para el modelado de lenguaje factual dentro de los puntos de referencia existentes para la evaluación de alucinaciones y proponemos un punto de referencia multilingüe y de múltiples saltos basado en KGs, llamado MultiHal, diseñado para la evaluación de texto generativo. Como parte de nuestra canalización de recopilación de datos, extrajimos 140k rutas de KGs de grafos de conocimiento de dominio abierto, de las cuales eliminamos las rutas ruidosas, curando un subconjunto de alta calidad de 25.9k. Nuestra evaluación de referencia muestra un aumento en la escala absoluta de aproximadamente 0.12 a 0.36 puntos para la puntuación de similitud semántica en KG-RAG sobre QA básico en múltiples idiomas y múltiples modelos, demostrando el potencial de la integración de KGs. Anticipamos que MultiHal fomentará futuras investigaciones hacia varias tareas de mitigación de alucinaciones y verificación de hechos basadas en grafos.
English
Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called MultiHal framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.

Summary

AI-Generated Summary

PDF12May 22, 2025