LettuceDetect : Un cadre de détection d'hallucinations pour les applications RAG
LettuceDetect: A Hallucination Detection Framework for RAG Applications
February 24, 2025
Auteurs: Ádám Kovács, Gábor Recski
cs.AI
Résumé
Les systèmes de Génération Augmentée par Récupération (RAG) restent vulnérables aux réponses hallucinées malgré l'intégration de sources de connaissances externes. Nous présentons LettuceDetect, un cadre qui aborde deux limitations critiques des méthodes existantes de détection d'hallucinations : (1) les contraintes de la fenêtre contextuelle des méthodes traditionnelles basées sur des encodeurs, et (2) l'inefficacité computationnelle des approches basées sur des modèles de langage de grande taille (LLM). S'appuyant sur les capacités de contexte étendu de ModernBERT (jusqu'à 8 000 tokens) et entraîné sur le jeu de données de référence RAGTruth, notre approche surpasse tous les modèles basés sur des encodeurs précédents et la plupart des modèles basés sur des prompts, tout en étant environ 30 fois plus petit que les meilleurs modèles. LettuceDetect est un modèle de classification de tokens qui traite des triplets contexte-question-réponse, permettant l'identification de déclarations non étayées au niveau des tokens. Les évaluations sur le corpus RAGTruth démontrent un score F1 de 79,22 % pour la détection au niveau des exemples, ce qui représente une amélioration de 14,8 % par rapport à Luna, l'architecture basée sur des encodeurs précédemment considérée comme l'état de l'art. De plus, le système peut traiter 30 à 60 exemples par seconde sur un seul GPU, le rendant plus pratique pour les applications RAG en conditions réelles.
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to
hallucinated answers despite incorporating external knowledge sources. We
present LettuceDetect a framework that addresses two critical limitations in
existing hallucination detection methods: (1) the context window constraints of
traditional encoder-based methods, and (2) the computational inefficiency of
LLM based approaches. Building on ModernBERT's extended context capabilities
(up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach
outperforms all previous encoder-based models and most prompt-based models,
while being approximately 30 times smaller than the best models. LettuceDetect
is a token-classification model that processes context-question-answer triples,
allowing for the identification of unsupported claims at the token level.
Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for
example-level detection, which is a 14.8% improvement over Luna, the previous
state-of-the-art encoder-based architecture. Additionally, the system can
process 30 to 60 examples per second on a single GPU, making it more practical
for real-world RAG applications.Summary
AI-Generated Summary