Turk-LettuceDetect: Een Hallucinatie Detectiemodel voor Turkse RAG-toepassingen
Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications
September 22, 2025
Auteurs: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI
Samenvatting
De brede adoptie van Large Language Models (LLMs) wordt belemmerd door hun neiging tot hallucinatie, waarbij ze plausibele maar feitelijk onjuiste informatie genereren. Hoewel Retrieval-Augmented Generation (RAG)-systemen proberen dit probleem aan te pakken door antwoorden te verankeren in externe kennis, blijft hallucinatie een hardnekkige uitdaging, vooral voor morfologisch complexe, laag-resource talen zoals het Turks. Dit artikel introduceert Turk-LettuceDetect, de eerste suite van hallucinatiedetectiemodellen die specifiek zijn ontworpen voor Turkse RAG-toepassingen. Gebaseerd op het LettuceDetect-framework formuleren we hallucinatiedetectie als een token-level classificatietaak en fine-tunen we drie verschillende encoder-architecturen: een Turks-specifieke ModernBERT, TurkEmbed4STS en een meertalige EuroBERT. Deze modellen zijn getraind op een machinaal vertaalde versie van de RAGTruth-benchmarkdataset, die 17.790 instanties bevat voor taken zoals vraagbeantwoording, data-naar-tekstgeneratie en samenvatting. Onze experimentele resultaten laten zien dat het ModernBERT-gebaseerde model een F1-score van 0,7266 behaalt op de volledige testset, met bijzonder sterke prestaties op gestructureerde taken. De modellen behouden rekenkundige efficiëntie terwijl ze lange contexten tot 8.192 tokens ondersteunen, waardoor ze geschikt zijn voor real-time implementatie. Vergelijkende analyse toont aan dat state-of-the-art LLMs weliswaar een hoge recall hebben, maar lijden onder een lage precisie door het overmatig genereren van gehallucineerde inhoud, wat de noodzaak van gespecialiseerde detectiemechanismen onderstreept. Door onze modellen en de vertaalde dataset vrij te geven, vult dit werk een kritieke leemte in meertalige NLP en legt het een basis voor het ontwikkelen van betrouwbaardere en vertrouwenswaardigere AI-toepassingen voor het Turks en andere talen.
English
The widespread adoption of Large Language Models (LLMs) has been hindered by
their tendency to hallucinate, generating plausible but factually incorrect
information. While Retrieval-Augmented Generation (RAG) systems attempt to
address this issue by grounding responses in external knowledge, hallucination
remains a persistent challenge, particularly for morphologically complex,
low-resource languages like Turkish. This paper introduces Turk-LettuceDetect,
the first suite of hallucination detection models specifically designed for
Turkish RAG applications. Building on the LettuceDetect framework, we formulate
hallucination detection as a token-level classification task and fine-tune
three distinct encoder architectures: a Turkish-specific ModernBERT,
TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a
machine-translated version of the RAGTruth benchmark dataset containing 17,790
instances across question answering, data-to-text generation, and summarization
tasks. Our experimental results show that the ModernBERT-based model achieves
an F1-score of 0.7266 on the complete test set, with particularly strong
performance on structured tasks. The models maintain computational efficiency
while supporting long contexts up to 8,192 tokens, making them suitable for
real-time deployment. Comparative analysis reveals that while state-of-the-art
LLMs demonstrate high recall, they suffer from low precision due to
over-generation of hallucinated content, underscoring the necessity of
specialized detection mechanisms. By releasing our models and translated
dataset, this work addresses a critical gap in multilingual NLP and establishes
a foundation for developing more reliable and trustworthy AI applications for
Turkish and other languages.