ChatPaper.aiChatPaper

Turk-LettuceDetect: Een Hallucinatie Detectiemodel voor Turkse RAG-toepassingen

Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications

September 22, 2025
Auteurs: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI

Samenvatting

De brede adoptie van Large Language Models (LLMs) wordt belemmerd door hun neiging tot hallucinatie, waarbij ze plausibele maar feitelijk onjuiste informatie genereren. Hoewel Retrieval-Augmented Generation (RAG)-systemen proberen dit probleem aan te pakken door antwoorden te verankeren in externe kennis, blijft hallucinatie een hardnekkige uitdaging, vooral voor morfologisch complexe, laag-resource talen zoals het Turks. Dit artikel introduceert Turk-LettuceDetect, de eerste suite van hallucinatiedetectiemodellen die specifiek zijn ontworpen voor Turkse RAG-toepassingen. Gebaseerd op het LettuceDetect-framework formuleren we hallucinatiedetectie als een token-level classificatietaak en fine-tunen we drie verschillende encoder-architecturen: een Turks-specifieke ModernBERT, TurkEmbed4STS en een meertalige EuroBERT. Deze modellen zijn getraind op een machinaal vertaalde versie van de RAGTruth-benchmarkdataset, die 17.790 instanties bevat voor taken zoals vraagbeantwoording, data-naar-tekstgeneratie en samenvatting. Onze experimentele resultaten laten zien dat het ModernBERT-gebaseerde model een F1-score van 0,7266 behaalt op de volledige testset, met bijzonder sterke prestaties op gestructureerde taken. De modellen behouden rekenkundige efficiëntie terwijl ze lange contexten tot 8.192 tokens ondersteunen, waardoor ze geschikt zijn voor real-time implementatie. Vergelijkende analyse toont aan dat state-of-the-art LLMs weliswaar een hoge recall hebben, maar lijden onder een lage precisie door het overmatig genereren van gehallucineerde inhoud, wat de noodzaak van gespecialiseerde detectiemechanismen onderstreept. Door onze modellen en de vertaalde dataset vrij te geven, vult dit werk een kritieke leemte in meertalige NLP en legt het een basis voor het ontwikkelen van betrouwbaardere en vertrouwenswaardigere AI-toepassingen voor het Turks en andere talen.
English
The widespread adoption of Large Language Models (LLMs) has been hindered by their tendency to hallucinate, generating plausible but factually incorrect information. While Retrieval-Augmented Generation (RAG) systems attempt to address this issue by grounding responses in external knowledge, hallucination remains a persistent challenge, particularly for morphologically complex, low-resource languages like Turkish. This paper introduces Turk-LettuceDetect, the first suite of hallucination detection models specifically designed for Turkish RAG applications. Building on the LettuceDetect framework, we formulate hallucination detection as a token-level classification task and fine-tune three distinct encoder architectures: a Turkish-specific ModernBERT, TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a machine-translated version of the RAGTruth benchmark dataset containing 17,790 instances across question answering, data-to-text generation, and summarization tasks. Our experimental results show that the ModernBERT-based model achieves an F1-score of 0.7266 on the complete test set, with particularly strong performance on structured tasks. The models maintain computational efficiency while supporting long contexts up to 8,192 tokens, making them suitable for real-time deployment. Comparative analysis reveals that while state-of-the-art LLMs demonstrate high recall, they suffer from low precision due to over-generation of hallucinated content, underscoring the necessity of specialized detection mechanisms. By releasing our models and translated dataset, this work addresses a critical gap in multilingual NLP and establishes a foundation for developing more reliable and trustworthy AI applications for Turkish and other languages.
PDF92September 23, 2025