LettuceDetect: RAG 애플리케이션을 위한 환각 현상 탐지 프레임워크
LettuceDetect: A Hallucination Detection Framework for RAG Applications
February 24, 2025
저자: Ádám Kovács, Gábor Recski
cs.AI
초록
외부 지식 소스를 통합함에도 불구하고 검색 증강 생성(Retrieval Augmented Generation, RAG) 시스템은 여전히 허구적인 답변에 취약합니다. 본 연구에서는 기존의 환각(hallucination) 탐지 방법이 가진 두 가지 주요 한계를 해결하는 LettuceDetect 프레임워크를 제안합니다: (1) 전통적인 인코더 기반 방법의 컨텍스트 윈도우 제약과 (2) 대형 언어 모델(LLM) 기반 접근법의 계산 비효율성. ModernBERT의 확장된 컨텍스트 처리 능력(최대 8,000 토큰)을 기반으로 하고 RAGTruth 벤치마크 데이터셋에서 학습된 우리의 접근법은 모든 기존 인코더 기반 모델과 대부분의 프롬프트 기반 모델을 능가하며, 최고 성능 모델보다 약 30배 더 작은 규모를 가집니다. LettuceDetect는 컨텍스트-질문-답변 삼중항을 처리하는 토큰 분류 모델로, 토큰 수준에서 지원되지 않는 주장을 식별할 수 있습니다. RAGTruth 코퍼스에 대한 평가 결과, 예제 수준 탐지에서 79.22%의 F1 점수를 달성했으며, 이는 이전 최신 인코더 기반 아키텍처인 Luna보다 14.8% 향상된 성능입니다. 또한, 이 시스템은 단일 GPU에서 초당 30~60개의 예제를 처리할 수 있어 실제 RAG 애플리케이션에 더 실용적입니다.
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to
hallucinated answers despite incorporating external knowledge sources. We
present LettuceDetect a framework that addresses two critical limitations in
existing hallucination detection methods: (1) the context window constraints of
traditional encoder-based methods, and (2) the computational inefficiency of
LLM based approaches. Building on ModernBERT's extended context capabilities
(up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach
outperforms all previous encoder-based models and most prompt-based models,
while being approximately 30 times smaller than the best models. LettuceDetect
is a token-classification model that processes context-question-answer triples,
allowing for the identification of unsupported claims at the token level.
Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for
example-level detection, which is a 14.8% improvement over Luna, the previous
state-of-the-art encoder-based architecture. Additionally, the system can
process 30 to 60 examples per second on a single GPU, making it more practical
for real-world RAG applications.Summary
AI-Generated Summary