MultiHal: Многоязычный набор данных для оценки галлюцинаций языковых моделей на основе графов знаний
MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations
May 20, 2025
Авторы: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI
Аннотация
Крупные языковые модели (LLM) имеют внутренние ограничения в плане достоверности и фактической точности, что обычно называют галлюцинациями. Было разработано несколько тестовых наборов, которые предоставляют основу для оценки фактической точности в контексте англоязычных данных, полагаясь на дополнительный информативный контекст, такой как веб-ссылки или текстовые отрывки, но игнорируя доступные структурированные фактические ресурсы. В этом контексте базы знаний (Knowledge Graphs, KG) были признаны полезным инструментом для снижения галлюцинаций, поскольку они предоставляют структурированный способ представления фактов о сущностях и их отношениях с минимальными лингвистическими издержками. Мы устраняем недостаток путей в KG и мультиязычности для моделирования фактической точности в существующих тестовых наборах для оценки галлюцинаций и предлагаем мультиязычный, многошаговый тестовый набор на основе KG под названием MultiHal, предназначенный для оценки генерации текста. В рамках нашего процесса сбора данных мы извлекли 140 тысяч путей из открытых KG, из которых отфильтровали шумные пути, создав высококачественное подмножество из 25,9 тысяч. Наша базовая оценка показывает абсолютное увеличение на примерно 0,12–0,36 баллов для показателя семантического сходства в KG-RAG по сравнению с обычными QA-системами на нескольких языках и для нескольких моделей, демонстрируя потенциал интеграции KG. Мы ожидаем, что MultiHal будет способствовать дальнейшим исследованиям в области задач снижения галлюцинаций и проверки фактов на основе графов.
English
Large Language Models (LLMs) have inherent limitations of faithfulness and
factuality, commonly referred to as hallucinations. Several benchmarks have
been developed that provide a test bed for factuality evaluation within the
context of English-centric datasets, while relying on supplementary informative
context like web links or text passages but ignoring the available structured
factual resources. To this end, Knowledge Graphs (KGs) have been identified as
a useful aid for hallucination mitigation, as they provide a structured way to
represent the facts about entities and their relations with minimal linguistic
overhead. We bridge the lack of KG paths and multilinguality for factual
language modeling within the existing hallucination evaluation benchmarks and
propose a KG-based multilingual, multihop benchmark called MultiHal
framed for generative text evaluation. As part of our data collection pipeline,
we mined 140k KG-paths from open-domain KGs, from which we pruned noisy
KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation
shows an absolute scale increase by approximately 0.12 to 0.36 points for the
semantic similarity score in KG-RAG over vanilla QA across multiple languages
and multiple models, demonstrating the potential of KG integration. We
anticipate MultiHal will foster future research towards several graph-based
hallucination mitigation and fact-checking tasks.Summary
AI-Generated Summary