LettuceDetect: RAGアプリケーションのための幻覚検出フレームワーク
LettuceDetect: A Hallucination Detection Framework for RAG Applications
February 24, 2025
著者: Ádám Kovács, Gábor Recski
cs.AI
要旨
Retrieval Augmented Generation (RAG) システムは、外部の知識源を取り入れているにもかかわらず、依然として虚偽の回答に対して脆弱です。本論文では、既存の虚偽検出手法における2つの重要な課題に対処するフレームワーク「LettuceDetect」を提案します。その課題とは、(1) 従来のエンコーダベース手法のコンテキストウィンドウの制約、(2) LLMベースアプローチの計算効率の低さです。ModernBERTの拡張コンテキスト能力(最大8kトークン)を基盤とし、RAGTruthベンチマークデータセットで訓練された本手法は、従来のすべてのエンコーダベースモデルとほとんどのプロンプトベースモデルを上回りながら、最良のモデルと比べて約30倍小型です。LettuceDetectは、コンテキスト-質問-回答の3つ組を処理するトークン分類モデルであり、トークンレベルで根拠のない主張を特定できます。RAGTruthコーパスでの評価では、事例レベルの検出においてF1スコア79.22%を達成し、従来の最先端エンコーダベースアーキテクチャであるLunaを14.8%上回りました。さらに、本システムは単一GPUで1秒あたり30~60事例を処理可能であり、実世界のRAGアプリケーションにおいてより実用的です。
English
Retrieval Augmented Generation (RAG) systems remain vulnerable to
hallucinated answers despite incorporating external knowledge sources. We
present LettuceDetect a framework that addresses two critical limitations in
existing hallucination detection methods: (1) the context window constraints of
traditional encoder-based methods, and (2) the computational inefficiency of
LLM based approaches. Building on ModernBERT's extended context capabilities
(up to 8k tokens) and trained on the RAGTruth benchmark dataset, our approach
outperforms all previous encoder-based models and most prompt-based models,
while being approximately 30 times smaller than the best models. LettuceDetect
is a token-classification model that processes context-question-answer triples,
allowing for the identification of unsupported claims at the token level.
Evaluations on the RAGTruth corpus demonstrate an F1 score of 79.22% for
example-level detection, which is a 14.8% improvement over Luna, the previous
state-of-the-art encoder-based architecture. Additionally, the system can
process 30 to 60 examples per second on a single GPU, making it more practical
for real-world RAG applications.Summary
AI-Generated Summary