LettuceDetect: Ein Framework zur Halluzinationserkennung für RAG-Anwendungen
LettuceDetect: A Hallucination Detection Framework for RAG Applications
February 24, 2025
Autoren: Ádám Kovács, Gábor Recski
cs.AI
Zusammenfassung
Retrieval Augmented Generation (RAG)-Systeme bleiben trotz der Einbindung externer Wissensquellen anfällig für halluzinierte Antworten. Wir stellen LettuceDetect vor, ein Framework, das zwei kritische Einschränkungen bestehender Methoden zur Halluzinationserkennung adressiert: (1) die Kontextfensterbeschränkungen traditioneller encoder-basierter Methoden und (2) die rechnerische Ineffizienz von LLM-basierten Ansätzen. Basierend auf den erweiterten Kontextfähigkeiten von ModernBERT (bis zu 8k Tokens) und trainiert auf dem RAGTruth-Benchmark-Datensatz, übertrifft unser Ansatz alle bisherigen encoder-basierten Modelle und die meisten prompt-basierten Modelle, während er etwa 30-mal kleiner ist als die besten Modelle. LettuceDetect ist ein Token-Klassifikationsmodell, das Kontext-Frage-Antwort-Tripel verarbeitet und die Identifizierung nicht unterstützter Behauptungen auf Token-Ebene ermöglicht. Auswertungen auf dem RAGTruth-Korpus zeigen einen F1-Score von 79,22 % für die Erkennung auf Beispiel-Ebene, was einer Verbesserung von 14,8 % gegenüber Luna, der bisherigen state-of-the-art encoder-basierten Architektur, entspricht. Darüber hinaus kann das System 30 bis 60 Beispiele pro Sekunde auf einer einzelnen GPU verarbeiten, was es praktikabler für reale RAG-Anwendungen macht.
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to
hallucinated answers despite incorporating external knowledge sources. We
present LettuceDetect a framework that addresses two critical limitations in
existing hallucination detection methods: (1) the context window constraints of
traditional encoder-based methods, and (2) the computational inefficiency of
LLM based approaches. Building on ModernBERT's extended context capabilities
(up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach
outperforms all previous encoder-based models and most prompt-based models,
while being approximately 30 times smaller than the best models. LettuceDetect
is a token-classification model that processes context-question-answer triples,
allowing for the identification of unsupported claims at the token level.
Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for
example-level detection, which is a 14.8% improvement over Luna, the previous
state-of-the-art encoder-based architecture. Additionally, the system can
process 30 to 60 examples per second on a single GPU, making it more practical
for real-world RAG applications.Summary
AI-Generated Summary