ChatPaper.aiChatPaper

LettuceDetect: Een Framework voor Hallucinatiedetectie in RAG-toepassingen

LettuceDetect: A Hallucination Detection Framework for RAG Applications

February 24, 2025
Auteurs: Ádám Kovács, Gábor Recski
cs.AI

Samenvatting

Retrieval Augmented Generation (RAG)-systemen blijven kwetsbaar voor hallucinaties in antwoorden, ondanks het gebruik van externe kennisbronnen. Wij presenteren LettuceDetect, een raamwerk dat twee kritieke beperkingen in bestaande methoden voor hallucinatiedetectie aanpakt: (1) de contextvensterbeperkingen van traditionele encoder-gebaseerde methoden, en (2) de computationele inefficiëntie van LLM-gebaseerde benaderingen. Gebaseerd op de uitgebreide contextmogelijkheden van ModernBERT (tot 8k tokens) en getraind op de RAGTruth-benchmarkdataset, presteert onze aanpak beter dan alle voorgaande encoder-gebaseerde modellen en de meeste prompt-gebaseerde modellen, terwijl het ongeveer 30 keer kleiner is dan de beste modellen. LettuceDetect is een token-classificatiemodel dat context-vraag-antwoord-triples verwerkt, waardoor het mogelijk wordt om niet-ondersteunde beweringen op tokenniveau te identificeren. Evaluaties op de RAGTruth-corpus laten een F1-score van 79,22% zien voor detectie op voorbeeldniveau, wat een verbetering van 14,8% is ten opzichte van Luna, de vorige state-of-the-art encoder-gebaseerde architectuur. Daarnaast kan het systeem 30 tot 60 voorbeelden per seconde verwerken op een enkele GPU, wat het praktischer maakt voor real-world RAG-toepassingen.
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to hallucinated answers despite incorporating external knowledge sources. We present LettuceDetect a framework that addresses two critical limitations in existing hallucination detection methods: (1) the context window constraints of traditional encoder-based methods, and (2) the computational inefficiency of LLM based approaches. Building on ModernBERT's extended context capabilities (up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach outperforms all previous encoder-based models and most prompt-based models, while being approximately 30 times smaller than the best models. LettuceDetect is a token-classification model that processes context-question-answer triples, allowing for the identification of unsupported claims at the token level. Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for example-level detection, which is a 14.8% improvement over Luna, the previous state-of-the-art encoder-based architecture. Additionally, the system can process 30 to 60 examples per second on a single GPU, making it more practical for real-world RAG applications.

Summary

AI-Generated Summary

PDF112March 3, 2025