ChatPaper.aiChatPaper

LettuceDetect: Um Framework de Detecção de Alucinações para Aplicações RAG

LettuceDetect: A Hallucination Detection Framework for RAG Applications

February 24, 2025
Autores: Ádám Kovács, Gábor Recski
cs.AI

Resumo

Os sistemas de Geração Aumentada por Recuperação (RAG) continuam vulneráveis a respostas alucinadas, apesar de incorporarem fontes de conhecimento externas. Apresentamos o LettuceDetect, uma estrutura que aborda duas limitações críticas nos métodos existentes de detecção de alucinações: (1) as restrições da janela de contexto dos métodos tradicionais baseados em codificadores, e (2) a ineficiência computacional das abordagens baseadas em LLM. Construído sobre as capacidades de contexto estendido do ModernBERT (até 8 mil tokens) e treinado no conjunto de dados de referência RAGTruth, nossa abordagem supera todos os modelos anteriores baseados em codificadores e a maioria dos modelos baseados em prompts, sendo aproximadamente 30 vezes menor do que os melhores modelos. O LettuceDetect é um modelo de classificação de tokens que processa triplas contexto-pergunta-resposta, permitindo a identificação de afirmações não suportadas no nível do token. Avaliações no corpus RAGTruth demonstram um F1-score de 79,22% para detecção no nível de exemplo, o que representa uma melhoria de 14,8% em relação à Luna, a arquitetura baseada em codificadores anteriormente considerada estado da arte. Além disso, o sistema pode processar de 30 a 60 exemplos por segundo em uma única GPU, tornando-o mais prático para aplicações RAG do mundo real.
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to hallucinated answers despite incorporating external knowledge sources. We present LettuceDetect a framework that addresses two critical limitations in existing hallucination detection methods: (1) the context window constraints of traditional encoder-based methods, and (2) the computational inefficiency of LLM based approaches. Building on ModernBERT's extended context capabilities (up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach outperforms all previous encoder-based models and most prompt-based models, while being approximately 30 times smaller than the best models. LettuceDetect is a token-classification model that processes context-question-answer triples, allowing for the identification of unsupported claims at the token level. Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for example-level detection, which is a 14.8% improvement over Luna, the previous state-of-the-art encoder-based architecture. Additionally, the system can process 30 to 60 examples per second on a single GPU, making it more practical for real-world RAG applications.

Summary

AI-Generated Summary

PDF112March 3, 2025