Quando os Modelos Mentem, Nós Aprendemos: Detecção de Alucinações em Nível de Span Multilíngue com PsiloQA
When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
October 6, 2025
Autores: Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova
cs.AI
Resumo
A detecção de alucinações continua sendo um desafio fundamental para a implantação segura e confiável de grandes modelos de linguagem (LLMs), especialmente em aplicações que exigem precisão factual. Os benchmarks existentes para alucinações geralmente operam no nível de sequência e são limitados ao inglês, carecendo da supervisão detalhada e multilíngue necessária para uma avaliação abrangente. Neste trabalho, apresentamos o PsiloQA, um conjunto de dados em larga escala e multilíngue, anotado com alucinações em nível de trecho em 14 idiomas. O PsiloQA é construído por meio de um pipeline automatizado em três etapas: geração de pares pergunta-resposta a partir da Wikipédia usando o GPT-4o, elicitação de respostas potencialmente alucinadas de diversos LLMs em um cenário sem contexto e anotação automática de trechos alucinados usando o GPT-4o, comparando-os com respostas de referência e contexto recuperado. Avaliamos uma ampla gama de métodos de detecção de alucinações — incluindo quantificação de incerteza, marcação baseada em LLMs e modelos de codificador ajustados — e mostramos que os modelos baseados em codificadores alcançam o melhor desempenho entre os idiomas. Além disso, o PsiloQA demonstra generalização cross-lingual eficaz e suporta transferência robusta de conhecimento para outros benchmarks, tudo isso sendo significativamente mais econômico do que conjuntos de dados anotados manualmente. Nosso conjunto de dados e resultados avançam o desenvolvimento de detecção escalável e detalhada de alucinações em cenários multilíngues.
English
Hallucination detection remains a fundamental challenge for the safe and
reliable deployment of large language models (LLMs), especially in applications
requiring factual accuracy. Existing hallucination benchmarks often operate at
the sequence level and are limited to English, lacking the fine-grained,
multilingual supervision needed for a comprehensive evaluation. In this work,
we introduce PsiloQA, a large-scale, multilingual dataset annotated with
span-level hallucinations across 14 languages. PsiloQA is constructed through
an automated three-stage pipeline: generating question-answer pairs from
Wikipedia using GPT-4o, eliciting potentially hallucinated answers from diverse
LLMs in a no-context setting, and automatically annotating hallucinated spans
using GPT-4o by comparing against golden answers and retrieved context. We
evaluate a wide range of hallucination detection methods -- including
uncertainty quantification, LLM-based tagging, and fine-tuned encoder models --
and show that encoder-based models achieve the strongest performance across
languages. Furthermore, PsiloQA demonstrates effective cross-lingual
generalization and supports robust knowledge transfer to other benchmarks, all
while being significantly more cost-efficient than human-annotated datasets.
Our dataset and results advance the development of scalable, fine-grained
hallucination detection in multilingual settings.