Когда модели лгут, мы учимся: обнаружение спан-уровневых галлюцинаций в многоязычных данных с помощью PsiloQA
When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
October 6, 2025
Авторы: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI
Аннотация
Обнаружение галлюцинаций остается фундаментальной задачей для безопасного и надежного развертывания больших языковых моделей (LLM), особенно в приложениях, требующих фактической точности. Существующие бенчмарки для оценки галлюцинаций часто работают на уровне последовательностей и ограничены английским языком, не предоставляя детального многоязычного контроля, необходимого для всесторонней оценки. В данной работе мы представляем PsiloQA — крупномасштабный многоязычный набор данных, аннотированный на уровне фрагментов с указанием галлюцинаций для 14 языков. PsiloQA создан с помощью автоматизированного трехэтапного процесса: генерации пар вопрос-ответ из Википедии с использованием GPT-4o, получения потенциально галлюцинированных ответов от различных LLM в условиях отсутствия контекста и автоматической аннотации галлюцинированных фрагментов с помощью GPT-4o путем сравнения с эталонными ответами и извлеченным контекстом. Мы оцениваем широкий спектр методов обнаружения галлюцинаций, включая количественную оценку неопределенности, тегирование на основе LLM и тонко настроенные модели-энкодеры, и показываем, что модели на основе энкодеров демонстрируют наилучшую производительность на всех языках. Кроме того, PsiloQA демонстрирует эффективную кросс-лингвистическую генерализацию и поддерживает устойчивый перенос знаний на другие бенчмарки, оставаясь при этом значительно более экономичным по сравнению с наборами данных, аннотированными вручную. Наш набор данных и результаты способствуют развитию масштабируемого и детального обнаружения галлюцинаций в многоязычных условиях.
English
Hallucination detection remains a fundamental challenge for the safe and
reliable deployment of large language models (LLMs), especially in applications
requiring factual accuracy. Existing hallucination benchmarks often operate at
the sequence level and are limited to English, lacking the fine-grained,
multilingual supervision needed for a comprehensive evaluation. In this work,
we introduce PsiloQA, a large-scale, multilingual dataset annotated with
span-level hallucinations across 14 languages. PsiloQA is constructed through
an automated three-stage pipeline: generating question-answer pairs from
Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse
LLMs in a no-context setting, and automatically annotating hallucinated spans
using GPT-4o by comparing against golden answers and retrieved context. We
evaluate a wide range of hallucination detection methods -- including
uncertainty quantification, LLM-based tagging, and fine-tuned encoder models --
and show that encoder-based models achieve the strongest performance across
languages. Furthermore, PsiloQA demonstrates effective cross-lingual
generalization and supports robust knowledge transfer to other benchmarks, all
while being significantly more cost-efficient than human-annotated datasets.
Our dataset and results advance the development of scalable, fine-grained
hallucination detection in multilingual settings.