ChatPaper.aiChatPaper

Quand les modèles mentent, nous apprenons : Détection des hallucinations au niveau des segments multilingues avec PsiloQA

When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

October 6, 2025
papers.authors: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI

papers.abstract

La détection des hallucinations reste un défi fondamental pour le déploiement sûr et fiable des grands modèles de langage (LLMs), en particulier dans les applications nécessitant une exactitude factuelle. Les benchmarks existants pour la détection des hallucinations opèrent souvent au niveau de la séquence et se limitent à l'anglais, manquant ainsi de la supervision fine et multilingue nécessaire pour une évaluation complète. Dans ce travail, nous présentons PsiloQA, un jeu de données à grande échelle et multilingue annoté avec des hallucinations au niveau des segments dans 14 langues. PsiloQA est construit grâce à un pipeline automatisé en trois étapes : la génération de paires question-réponse à partir de Wikipédia en utilisant GPT-4o, l'obtention de réponses potentiellement hallucinées à partir de divers LLMs dans un contexte sans information, et l'annotation automatique des segments hallucinés en utilisant GPT-4o en les comparant aux réponses de référence et au contexte récupéré. Nous évaluons une large gamme de méthodes de détection des hallucinations — incluant la quantification de l'incertitude, le marquage basé sur les LLMs et les modèles encodeurs affinés — et montrons que les modèles basés sur des encodeurs obtiennent les meilleures performances à travers les langues. De plus, PsiloQA démontre une généralisation interlangue efficace et supporte un transfert de connaissances robuste vers d'autres benchmarks, tout en étant nettement plus rentable que les jeux de données annotés manuellement. Notre jeu de données et nos résultats font progresser le développement d'une détection d'hallucinations scalable et fine dans des contextes multilingues.
English
Hallucination detection remains a fundamental challenge for the safe and reliable deployment of large language models (LLMs), especially in applications requiring factual accuracy. Existing hallucination benchmarks often operate at the sequence level and are limited to English, lacking the fine-grained, multilingual supervision needed for a comprehensive evaluation. In this work, we introduce PsiloQA, a large-scale, multilingual dataset annotated with span-level hallucinations across 14 languages. PsiloQA is constructed through an automated three-stage pipeline: generating question-answer pairs from Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse LLMs in a no-context setting, and automatically annotating hallucinated spans using GPT-4o by comparing against golden answers and retrieved context. We evaluate a wide range of hallucination detection methods -- including uncertainty quantification, LLM-based tagging, and fine-tuned encoder models -- and show that encoder-based models achieve the strongest performance across languages. Furthermore, PsiloQA demonstrates effective cross-lingual generalization and supports robust knowledge transfer to other benchmarks, all while being significantly more cost-efficient than human-annotated datasets. Our dataset and results advance the development of scalable, fine-grained hallucination detection in multilingual settings.
PDF1065October 17, 2025