LettuceDetect: Un Marco de Detección de Alucinaciones para Aplicaciones RAG
LettuceDetect: A Hallucination Detection Framework for RAG Applications
February 24, 2025
Autores: Ádám Kovács, Gábor Recski
cs.AI
Resumen
Los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) siguen siendo vulnerables a respuestas alucinadas a pesar de incorporar fuentes de conocimiento externas. Presentamos LettuceDetect, un marco que aborda dos limitaciones críticas en los métodos existentes de detección de alucinaciones: (1) las restricciones de la ventana de contexto en los métodos tradicionales basados en codificadores, y (2) la ineficiencia computacional de los enfoques basados en modelos de lenguaje grandes (LLM). Basándonos en las capacidades de contexto extendido de ModernBERT (hasta 8k tokens) y entrenado en el conjunto de datos de referencia RAGTruth, nuestro enfoque supera a todos los modelos anteriores basados en codificadores y a la mayoría de los modelos basados en prompts, siendo aproximadamente 30 veces más pequeño que los mejores modelos. LettuceDetect es un modelo de clasificación de tokens que procesa tríos de contexto-pregunta-respuesta, permitiendo la identificación de afirmaciones no respaldadas a nivel de token. Las evaluaciones en el corpus RAGTruth demuestran un puntaje F1 de 79.22% para la detección a nivel de ejemplo, lo que representa una mejora del 14.8% sobre Luna, la arquitectura basada en codificadores anteriormente considerada como estado del arte. Además, el sistema puede procesar de 30 a 60 ejemplos por segundo en una sola GPU, lo que lo hace más práctico para aplicaciones RAG en el mundo real.
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to
hallucinated answers despite incorporating external knowledge sources. We
present LettuceDetect a framework that addresses two critical limitations in
existing hallucination detection methods: (1) the context window constraints of
traditional encoder-based methods, and (2) the computational inefficiency of
LLM based approaches. Building on ModernBERT's extended context capabilities
(up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach
outperforms all previous encoder-based models and most prompt-based models,
while being approximately 30 times smaller than the best models. LettuceDetect
is a token-classification model that processes context-question-answer triples,
allowing for the identification of unsupported claims at the token level.
Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for
example-level detection, which is a 14.8% improvement over Luna, the previous
state-of-the-art encoder-based architecture. Additionally, the system can
process 30 to 60 examples per second on a single GPU, making it more practical
for real-world RAG applications.Summary
AI-Generated Summary