Détection fine des hallucinations ancrées dans le contexte à l'aide de modèles de langage de grande taille
Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs
September 26, 2025
papers.authors: Yehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart
cs.AI
papers.abstract
Les hallucinations ancrées dans le contexte sont des cas où les sorties d'un modèle contiennent des informations non vérifiables par rapport au texte source. Nous étudions l'applicabilité des modèles de langage de grande taille (LLMs) pour localiser de telles hallucinations, offrant ainsi une alternative plus pratique aux pipelines d'évaluation complexes existants. En l'absence de benchmarks établis pour la méta-évaluation de la localisation des hallucinations, nous en construisons un adapté aux LLMs, impliquant une annotation humaine exigeante de plus de 1 000 exemples. Nous complétons ce benchmark avec un protocole d'évaluation basé sur les LLMs, en vérifiant sa qualité par une évaluation humaine. Étant donné que les représentations existantes des hallucinations limitent les types d'erreurs pouvant être exprimées, nous proposons une nouvelle représentation basée sur des descriptions textuelles libres, capturant toute la gamme des erreurs possibles. Nous menons une étude approfondie, évaluant quatre LLMs à grande échelle, qui met en évidence la difficulté du benchmark, le meilleur modèle atteignant un score F1 de seulement 0,67. Grâce à une analyse minutieuse, nous offrons des insights sur les stratégies de prompting optimales pour cette tâche et identifions les principaux facteurs qui la rendent difficile pour les LLMs : (1) une tendance à marquer incorrectement les détails manquants comme incohérents, malgré des instructions visant à vérifier uniquement les faits dans la sortie ; et (2) une difficulté avec les sorties contenant des informations factuellement correctes mais absentes de la source – et donc non vérifiables – en raison de leur alignement avec les connaissances paramétriques du modèle.
English
Context-grounded hallucinations are cases where model outputs contain
information not verifiable against the source text. We study the applicability
of LLMs for localizing such hallucinations, as a more practical alternative to
existing complex evaluation pipelines. In the absence of established benchmarks
for meta-evaluation of hallucinations localization, we construct one tailored
to LLMs, involving a challenging human annotation of over 1,000 examples. We
complement the benchmark with an LLM-based evaluation protocol, verifying its
quality in a human evaluation. Since existing representations of hallucinations
limit the types of errors that can be expressed, we propose a new
representation based on free-form textual descriptions, capturing the full
range of possible errors. We conduct a comprehensive study, evaluating four
large-scale LLMs, which highlights the benchmark's difficulty, as the best
model achieves an F1 score of only 0.67. Through careful analysis, we offer
insights into optimal prompting strategies for the task and identify the main
factors that make it challenging for LLMs: (1) a tendency to incorrectly flag
missing details as inconsistent, despite being instructed to check only facts
in the output; and (2) difficulty with outputs containing factually correct
information absent from the source - and thus not verifiable - due to alignment
with the model's parametric knowledge.