ChatPaper.aiChatPaper

MultiHal: 大規模言語モデルの幻覚評価のための知識グラフ基盤型多言語データセット

MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

May 20, 2025
著者: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI

要旨

大規模言語モデル(LLMs)には、忠実性と事実性に関する本質的な限界があり、一般的に「幻覚」と呼ばれる現象が生じる。これまでに、英語中心のデータセットを基にした事実性評価のためのベンチマークがいくつか開発されてきたが、これらはウェブリンクやテキストパッセージなどの補足的な情報に依存し、利用可能な構造化された事実リソースを無視している。この問題に対処するため、知識グラフ(KGs)が幻覚の軽減に有用な支援ツールとして認識されている。KGsは、エンティティとその関係に関する事実を構造化された形で表現し、最小限の言語的オーバーヘッドで提供する。本研究では、既存の幻覚評価ベンチマークにおけるKGパスと多言語性の欠如を埋め、生成テキスト評価のためのKGベースの多言語・マルチホップベンチマーク「MultiHal」を提案する。データ収集パイプラインの一環として、オープンドメインのKGsから14万のKGパスを抽出し、ノイズの多いKGパスを除去して、2万5900の高品質なサブセットをキュレーションした。ベースライン評価の結果、KG-RAGは複数の言語とモデルにおいて、従来のQAと比較してセマンティック類似性スコアが約0.12から0.36ポイント絶対的に向上し、KG統合の可能性を示した。MultiHalが、グラフベースの幻覚軽減および事実確認タスクに向けた今後の研究を促進することを期待する。
English
Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called MultiHal framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.

Summary

AI-Generated Summary

PDF12May 22, 2025