ChatPaper.aiChatPaper

MultiHal: 다국어 지식 그래프 기반 LLM 환각 현상 평가 데이터셋

MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

May 20, 2025
저자: Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
cs.AI

초록

대형 언어 모델(LLMs)은 신뢰성과 사실성 측면에서 본질적인 한계를 지니고 있으며, 이러한 현상은 일반적으로 환각(hallucination)으로 불립니다. 영어 중심 데이터셋을 기반으로 사실성 평가를 위한 테스트베드 역할을 하는 여러 벤치마크가 개발되었으나, 이들은 웹 링크나 텍스트 구절과 같은 보조 정보에 의존하면서도 기존에 존재하는 구조화된 사실 자원을 활용하지 못하고 있습니다. 이에 따라 지식 그래프(KGs)는 환각 완화를 위한 유용한 도구로 주목받고 있는데, 이는 최소한의 언어적 오버헤드로 엔티티와 그들 간의 관계에 대한 사실을 구조화된 방식으로 표현할 수 있기 때문입니다. 우리는 기존의 환각 평가 벤치마크에서 지식 그래프 경로와 다국어 지원이 부족한 점을 해소하고, 생성형 텍스트 평가를 위한 KG 기반의 다국어, 다중 홉(multihop) 벤치마크인 MultiHal을 제안합니다. 데이터 수집 파이프라인의 일환으로, 우리는 오픈 도메인 KGs에서 140k개의 KG 경로를 추출한 후 노이즈가 있는 KG 경로를 제거하여 25.9k개의 고품질 부분집합을 선별했습니다. 베이스라인 평가 결과, KG-RAG가 일반 QA에 비해 다국어 및 다양한 모델에서 의미적 유사도 점수가 약 0.12에서 0.36 포인트 절대적으로 증가한 것으로 나타나, KG 통합의 잠재력을 입증했습니다. 우리는 MultiHal이 그래프 기반 환각 완화 및 사실 확인 작업을 위한 향후 연구를 촉진할 것으로 기대합니다.
English
Large Language Models (LLMs) have inherent limitations of faithfulness and factuality, commonly referred to as hallucinations. Several benchmarks have been developed that provide a test bed for factuality evaluation within the context of English-centric datasets, while relying on supplementary informative context like web links or text passages but ignoring the available structured factual resources. To this end, Knowledge Graphs (KGs) have been identified as a useful aid for hallucination mitigation, as they provide a structured way to represent the facts about entities and their relations with minimal linguistic overhead. We bridge the lack of KG paths and multilinguality for factual language modeling within the existing hallucination evaluation benchmarks and propose a KG-based multilingual, multihop benchmark called MultiHal framed for generative text evaluation. As part of our data collection pipeline, we mined 140k KG-paths from open-domain KGs, from which we pruned noisy KG-paths, curating a high-quality subset of 25.9k. Our baseline evaluation shows an absolute scale increase by approximately 0.12 to 0.36 points for the semantic similarity score in KG-RAG over vanilla QA across multiple languages and multiple models, demonstrating the potential of KG integration. We anticipate MultiHal will foster future research towards several graph-based hallucination mitigation and fact-checking tasks.

Summary

AI-Generated Summary

PDF12May 22, 2025