ChatPaper.aiChatPaper

모델이 거짓말할 때, 우리는 배운다: PsiloQA를 활용한 다국어 범위 수준 환각 탐지

When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

October 6, 2025
저자: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI

초록

환각(hallucination) 탐지는 대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위한 근본적인 과제로, 특히 사실적 정확성이 요구되는 응용 분야에서 중요합니다. 기존의 환각 벤치마크는 주로 시퀀스 수준에서 작동하며 영어에 국한되어 있어, 포괄적인 평가를 위한 세분화된 다국어 감독이 부족합니다. 본 연구에서는 14개 언어에 걸쳐 스팬(span) 수준의 환각이 주석 처리된 대규모 다국어 데이터셋인 PsiloQA를 소개합니다. PsiloQA는 자동화된 3단계 파이프라인을 통해 구축되었습니다: GPT-4o를 사용하여 위키백사에서 질문-답변 쌍을 생성하고, 컨텍스트가 없는 설정에서 다양한 LLM으로부터 잠재적으로 환각된 답변을 유도하며, GPT-4o를 사용하여 골든 답변과 검색된 컨텍스트를 비교하여 환각된 스팬을 자동으로 주석 처리합니다. 우리는 불확실성 정량화, LLM 기반 태깅, 미세 조정된 인코더 모델 등 다양한 환각 탐지 방법을 평가하고, 인코더 기반 모델이 모든 언어에서 가장 강력한 성능을 보임을 입증합니다. 또한, PsiloQA는 효과적인 교차 언어 일반화를 보여주며 다른 벤치마크로의 견고한 지식 전이를 지원하는 동시에, 인간 주석 데이터셋보다 훨씬 더 비용 효율적입니다. 우리의 데이터셋과 결과는 다국어 환경에서 확장 가능한 세분화된 환각 탐지 기술의 발전에 기여합니다.
English
Hallucination detection remains a fundamental challenge for the safe and reliable deployment of large language models (LLMs), especially in applications requiring factual accuracy. Existing hallucination benchmarks often operate at the sequence level and are limited to English, lacking the fine-grained, multilingual supervision needed for a comprehensive evaluation. In this work, we introduce PsiloQA, a large-scale, multilingual dataset annotated with span-level hallucinations across 14 languages. PsiloQA is constructed through an automated three-stage pipeline: generating question-answer pairs from Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse LLMs in a no-context setting, and automatically annotating hallucinated spans using GPT-4o by comparing against golden answers and retrieved context. We evaluate a wide range of hallucination detection methods -- including uncertainty quantification, LLM-based tagging, and fine-tuned encoder models -- and show that encoder-based models achieve the strongest performance across languages. Furthermore, PsiloQA demonstrates effective cross-lingual generalization and supports robust knowledge transfer to other benchmarks, all while being significantly more cost-efficient than human-annotated datasets. Our dataset and results advance the development of scalable, fine-grained hallucination detection in multilingual settings.
PDF1065October 17, 2025