ChatPaper.aiChatPaper

LettuceDetect: Un Framework per il Rilevamento di Allucinazioni nelle Applicazioni RAG

LettuceDetect: A Hallucination Detection Framework for RAG Applications

February 24, 2025
Autori: Ádám Kovács, Gábor Recski
cs.AI

Abstract

I sistemi di Generazione Aumentata da Recupero (RAG) rimangono vulnerabili a risposte allucinate nonostante l'incorporazione di fonti di conoscenza esterne. Presentiamo LettuceDetect, un framework che affronta due limitazioni critiche nei metodi esistenti di rilevamento delle allucinazioni: (1) i vincoli della finestra contestuale dei metodi tradizionali basati su encoder, e (2) l'inefficienza computazionale degli approcci basati su LLM. Basandoci sulle capacità di contesto esteso di ModernBERT (fino a 8k token) e addestrato sul dataset di benchmark RAGTruth, il nostro approccio supera tutti i precedenti modelli basati su encoder e la maggior parte dei modelli basati su prompt, pur essendo circa 30 volte più piccolo rispetto ai migliori modelli. LettuceDetect è un modello di classificazione a livello di token che elabora triple contesto-domanda-risposta, consentendo l'identificazione di affermazioni non supportate a livello di token. Le valutazioni sul corpus RAGTruth dimostrano un punteggio F1 del 79,22% per il rilevamento a livello di esempio, che rappresenta un miglioramento del 14,8% rispetto a Luna, la precedente architettura basata su encoder all'avanguardia. Inoltre, il sistema può elaborare da 30 a 60 esempi al secondo su una singola GPU, rendendolo più pratico per applicazioni RAG nel mondo reale.
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to hallucinated answers despite incorporating external knowledge sources. We present LettuceDetect a framework that addresses two critical limitations in existing hallucination detection methods: (1) the context window constraints of traditional encoder-based methods, and (2) the computational inefficiency of LLM based approaches. Building on ModernBERT's extended context capabilities (up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach outperforms all previous encoder-based models and most prompt-based models, while being approximately 30 times smaller than the best models. LettuceDetect is a token-classification model that processes context-question-answer triples, allowing for the identification of unsupported claims at the token level. Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for example-level detection, which is a 14.8% improvement over Luna, the previous state-of-the-art encoder-based architecture. Additionally, the system can process 30 to 60 examples per second on a single GPU, making it more practical for real-world RAG applications.

Summary

AI-Generated Summary

PDF112March 3, 2025