Détection fine des hallucinations ancrées dans le contexte à l'aide de modèles de langage de grande taille

papers.abstract

Les hallucinations ancrées dans le contexte sont des cas où les sorties d'un modèle contiennent des informations non vérifiables par rapport au texte source. Nous étudions l'applicabilité des modèles de langage de grande taille (LLMs) pour localiser de telles hallucinations, offrant ainsi une alternative plus pratique aux pipelines d'évaluation complexes existants. En l'absence de benchmarks établis pour la méta-évaluation de la localisation des hallucinations, nous en construisons un adapté aux LLMs, impliquant une annotation humaine exigeante de plus de 1 000 exemples. Nous complétons ce benchmark avec un protocole d'évaluation basé sur les LLMs, en vérifiant sa qualité par une évaluation humaine. Étant donné que les représentations existantes des hallucinations limitent les types d'erreurs pouvant être exprimées, nous proposons une nouvelle représentation basée sur des descriptions textuelles libres, capturant toute la gamme des erreurs possibles. Nous menons une étude approfondie, évaluant quatre LLMs à grande échelle, qui met en évidence la difficulté du benchmark, le meilleur modèle atteignant un score F1 de seulement 0,67. Grâce à une analyse minutieuse, nous offrons des insights sur les stratégies de prompting optimales pour cette tâche et identifions les principaux facteurs qui la rendent difficile pour les LLMs : (1) une tendance à marquer incorrectement les détails manquants comme incohérents, malgré des instructions visant à vérifier uniquement les faits dans la sortie ; et (2) une difficulté avec les sorties contenant des informations factuellement correctes mais absentes de la source – et donc non vérifiables – en raison de leur alignement avec les connaissances paramétriques du modèle.

English

Context-grounded hallucinations are cases where model outputs contain information not verifiable against the source text. We study the applicability of LLMs for localizing such hallucinations, as a more practical alternative to existing complex evaluation pipelines. In the absence of established benchmarks for meta-evaluation of hallucinations localization, we construct one tailored to LLMs, involving a challenging human annotation of over 1,000 examples. We complement the benchmark with an LLM-based evaluation protocol, verifying its quality in a human evaluation. Since existing representations of hallucinations limit the types of errors that can be expressed, we propose a new representation based on free-form textual descriptions, capturing the full range of possible errors. We conduct a comprehensive study, evaluating four large-scale LLMs, which highlights the benchmark's difficulty, as the best model achieves an F1 score of only 0.67. Through careful analysis, we offer insights into optimal prompting strategies for the task and identify the main factors that make it challenging for LLMs: (1) a tendency to incorrectly flag missing details as inconsistent, despite being instructed to check only facts in the output; and (2) difficulty with outputs containing factually correct information absent from the source - and thus not verifiable - due to alignment with the model's parametric knowledge.

Détection fine des hallucinations ancrées dans le contexte à l'aide de modèles de langage de grande taille

Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs

papers.abstract

Support