REFIND : Détection des hallucinations factuelles par augmentation de la recherche dans les grands modèles de langage

papers.abstract

Les hallucinations dans les sorties des grands modèles de langage (LLM) limitent gravement leur fiabilité dans des tâches nécessitant des connaissances approfondies, telles que la réponse à des questions. Pour relever ce défi, nous introduisons REFIND (Retrieval-augmented Factuality halllucINation Detection), un cadre novateur qui détecte les segments hallucinés dans les sorties des LLM en exploitant directement des documents récupérés. Dans le cadre de REFIND, nous proposons le Ratio de Sensibilité au Contexte (CSR), une nouvelle métrique qui quantifie la sensibilité des sorties des LLM aux preuves récupérées. Cette approche innovante permet à REFIND de détecter efficacement et précisément les hallucinations, se distinguant ainsi des méthodes existantes. Lors de l'évaluation, REFIND a démontré une robustesse à travers neuf langues, y compris dans des contextes à ressources limitées, et a surpassé de manière significative les modèles de référence, obtenant des scores IoU supérieurs dans l'identification des segments hallucinés. Ce travail met en lumière l'efficacité de la quantification de la sensibilité au contexte pour la détection des hallucinations, ouvrant ainsi la voie à des applications de LLM plus fiables et dignes de confiance à travers diverses langues.

English

Hallucinations in large language model (LLM) outputs severely limit their reliability in knowledge-intensive tasks such as question answering. To address this challenge, we introduce REFIND (Retrieval-augmented Factuality hallucINation Detection), a novel framework that detects hallucinated spans within LLM outputs by directly leveraging retrieved documents. As part of the REFIND, we propose the Context Sensitivity Ratio (CSR), a novel metric that quantifies the sensitivity of LLM outputs to retrieved evidence. This innovative approach enables REFIND to efficiently and accurately detect hallucinations, setting it apart from existing methods. In the evaluation, REFIND demonstrated robustness across nine languages, including low-resource settings, and significantly outperformed baseline models, achieving superior IoU scores in identifying hallucinated spans. This work highlights the effectiveness of quantifying context sensitivity for hallucination detection, thereby paving the way for more reliable and trustworthy LLM applications across diverse languages.

REFIND : Détection des hallucinations factuelles par augmentation de la recherche dans les grands modèles de langage

REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models

papers.abstract

Support