Turk-LettuceDetect: トルコ語RAGアプリケーションのための幻覚検出モデル
Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications
September 22, 2025
著者: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI
要旨
大規模言語モデル(LLMs)の広範な採用は、その幻覚(hallucination)の傾向、つまり一見もっともらしいが事実に基づかない情報を生成する性質によって妨げられてきた。検索拡張生成(Retrieval-Augmented Generation, RAG)システムは、外部知識に基づいて応答を根拠づけることでこの問題に対処しようとしているが、特に形態的に複雑でリソースが限られたトルコ語のような言語では、幻覚は依然として持続的な課題である。本論文では、トルコ語のRAGアプリケーションに特化した初の幻覚検出モデル群であるTurk-LettuceDetectを紹介する。LettuceDetectフレームワークを基盤として、幻覚検出をトークンレベルの分類タスクとして定式化し、3つの異なるエンコーダアーキテクチャ(トルコ語特化のModernBERT、TurkEmbed4STS、多言語対応のEuroBERT)をファインチューニングした。これらのモデルは、質問応答、データからテキスト生成、要約タスクを含む17,790インスタンスからなるRAGTruthベンチマークデータセットの機械翻訳版を用いて訓練された。実験結果は、ModernBERTベースのモデルが完全なテストセットで0.7266のF1スコアを達成し、特に構造化されたタスクで優れた性能を示すことを明らかにした。これらのモデルは、最大8,192トークンの長いコンテキストをサポートしながら計算効率を維持し、リアルタイム展開に適している。比較分析により、最先端のLLMsは高い再現率を示すものの、幻覚内容の過剰生成による低い精度に悩まされていることが明らかになり、専門的な検出メカニズムの必要性が強調された。本研究成果として、モデルと翻訳データセットを公開することで、多言語NLPにおける重要なギャップを埋め、トルコ語やその他の言語のためのより信頼性の高いAIアプリケーション開発の基盤を確立する。
English
The widespread adoption of Large Language Models (LLMs) has been hindered by
their tendency to hallucinate, generating plausible but factually incorrect
information. While Retrieval-Augmented Generation (RAG) systems attempt to
address this issue by grounding responses in external knowledge, hallucination
remains a persistent challenge, particularly for morphologically complex,
low-resource languages like Turkish. This paper introduces Turk-LettuceDetect,
the first suite of hallucination detection models specifically designed for
Turkish RAG applications. Building on the LettuceDetect framework, we formulate
hallucination detection as a token-level classification task and fine-tune
three distinct encoder architectures: a Turkish-specific ModernBERT,
TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a
machine-translated version of the RAGTruth benchmark dataset containing 17,790
instances across question answering, data-to-text generation, and summarization
tasks. Our experimental results show that the ModernBERT-based model achieves
an F1-score of 0.7266 on the complete test set, with particularly strong
performance on structured tasks. The models maintain computational efficiency
while supporting long contexts up to 8,192 tokens, making them suitable for
real-time deployment. Comparative analysis reveals that while state-of-the-art
LLMs demonstrate high recall, they suffer from low precision due to
over-generation of hallucinated content, underscoring the necessity of
specialized detection mechanisms. By releasing our models and translated
dataset, this work addresses a critical gap in multilingual NLP and establishes
a foundation for developing more reliable and trustworthy AI applications for
Turkish and other languages.