REFIND : Détection des hallucinations factuelles par augmentation de la recherche dans les grands modèles de langage
REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models
February 19, 2025
Auteurs: DongGeon Lee, Hwanjo Yu
cs.AI
Résumé
Les hallucinations dans les sorties des grands modèles de langage (LLM) limitent gravement leur fiabilité dans des tâches nécessitant des connaissances approfondies, telles que la réponse à des questions. Pour relever ce défi, nous introduisons REFIND (Retrieval-augmented Factuality halllucINation Detection), un cadre novateur qui détecte les segments hallucinés dans les sorties des LLM en exploitant directement des documents récupérés. Dans le cadre de REFIND, nous proposons le Ratio de Sensibilité au Contexte (CSR), une nouvelle métrique qui quantifie la sensibilité des sorties des LLM aux preuves récupérées. Cette approche innovante permet à REFIND de détecter efficacement et précisément les hallucinations, se distinguant ainsi des méthodes existantes. Lors de l'évaluation, REFIND a démontré une robustesse à travers neuf langues, y compris dans des contextes à ressources limitées, et a surpassé de manière significative les modèles de référence, obtenant des scores IoU supérieurs dans l'identification des segments hallucinés. Ce travail met en lumière l'efficacité de la quantification de la sensibilité au contexte pour la détection des hallucinations, ouvrant ainsi la voie à des applications de LLM plus fiables et dignes de confiance à travers diverses langues.
English
Hallucinations in large language model (LLM) outputs severely limit their
reliability in knowledge-intensive tasks such as question answering. To address
this challenge, we introduce REFIND (Retrieval-augmented Factuality
hallucINation Detection), a novel framework that detects hallucinated spans
within LLM outputs by directly leveraging retrieved documents. As part of the
REFIND, we propose the Context Sensitivity Ratio (CSR), a novel metric that
quantifies the sensitivity of LLM outputs to retrieved evidence. This
innovative approach enables REFIND to efficiently and accurately detect
hallucinations, setting it apart from existing methods. In the evaluation,
REFIND demonstrated robustness across nine languages, including low-resource
settings, and significantly outperformed baseline models, achieving superior
IoU scores in identifying hallucinated spans. This work highlights the
effectiveness of quantifying context sensitivity for hallucination detection,
thereby paving the way for more reliable and trustworthy LLM applications
across diverse languages.Summary
AI-Generated Summary