モデルが嘘をつくとき、私たちは学ぶ:PsiloQAを用いた多言語スパンレベル幻覚検出
When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
October 6, 2025
著者: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI
要旨
幻覚検出は、大規模言語モデル(LLMs)の安全かつ信頼性の高い展開において、特に事実の正確性が求められるアプリケーションにおいて、基本的な課題として残っている。既存の幻覚ベンチマークは、多くの場合シーケンスレベルで動作し、英語に限定されており、包括的な評価に必要な細粒度かつ多言語の監視を欠いている。本研究では、14言語にわたるスパンレベルの幻覚を注釈付けた大規模多言語データセットであるPsiloQAを紹介する。PsiloQAは、GPT-4oを使用してWikipediaから質問-回答ペアを生成し、コンテキストなしの設定で多様なLLMsから潜在的に幻覚を含む回答を引き出し、GPT-4oを使用してゴールデン回答と検索されたコンテキストを比較することで幻覚スパンを自動的に注釈付けるという、自動化された3段階のパイプラインを通じて構築された。我々は、不確実性の定量化、LLMベースのタグ付け、ファインチューニングされたエンコーダモデルなど、幅広い幻覚検出方法を評価し、エンコーダベースのモデルが言語間で最も強い性能を発揮することを示す。さらに、PsiloQAは効果的なクロスリンガル一般化を示し、他のベンチマークへの堅牢な知識転移をサポートする一方で、人間による注釈付きデータセットよりも大幅にコスト効率が高い。我々のデータセットと結果は、多言語設定におけるスケーラブルで細粒度の幻覚検出の開発を推進するものである。
English
Hallucination detection remains a fundamental challenge for the safe and
reliable deployment of large language models (LLMs), especially in applications
requiring factual accuracy. Existing hallucination benchmarks often operate at
the sequence level and are limited to English, lacking the fine-grained,
multilingual supervision needed for a comprehensive evaluation. In this work,
we introduce PsiloQA, a large-scale, multilingual dataset annotated with
span-level hallucinations across 14 languages. PsiloQA is constructed through
an automated three-stage pipeline: generating question-answer pairs from
Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse
LLMs in a no-context setting, and automatically annotating hallucinated spans
using GPT-4o by comparing against golden answers and retrieved context. We
evaluate a wide range of hallucination detection methods -- including
uncertainty quantification, LLM-based tagging, and fine-tuned encoder models --
and show that encoder-based models achieve the strongest performance across
languages. Furthermore, PsiloQA demonstrates effective cross-lingual
generalization and supports robust knowledge transfer to other benchmarks, all
while being significantly more cost-efficient than human-annotated datasets.
Our dataset and results advance the development of scalable, fine-grained
hallucination detection in multilingual settings.