Turk-LettuceDetect: Un Modello di Rilevamento di Allucinazioni per Applicazioni RAG in Turco
Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications
September 22, 2025
Autori: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI
Abstract
L'adozione diffusa dei Large Language Model (LLM) è stata ostacolata dalla loro tendenza a generare allucinazioni, producendo informazioni plausibili ma fattualmente errate. Sebbene i sistemi di Retrieval-Augmented Generation (RAG) cerchino di affrontare questo problema ancorando le risposte a conoscenze esterne, le allucinazioni rimangono una sfida persistente, specialmente per lingue morfologicamente complesse e a bassa risorsa come il turco. Questo articolo introduce Turk-LettuceDetect, la prima suite di modelli di rilevamento delle allucinazioni specificamente progettata per applicazioni RAG in turco. Basandoci sul framework LettuceDetect, formuliamo il rilevamento delle allucinazioni come un compito di classificazione a livello di token e ottimizziamo tre distinte architetture di encoder: un ModernBERT specifico per il turco, TurkEmbed4STS e un EuroBERT multilingue. Questi modelli sono stati addestrati su una versione tradotta automaticamente del dataset di benchmark RAGTruth, contenente 17.790 istanze relative a compiti di risposta a domande, generazione da dati a testo e riassunto. I nostri risultati sperimentali mostrano che il modello basato su ModernBERT raggiunge un punteggio F1 di 0,7266 sull'intero set di test, con prestazioni particolarmente forti sui compiti strutturati. I modelli mantengono un'efficienza computazionale pur supportando contesti lunghi fino a 8.192 token, rendendoli adatti per il dispiegamento in tempo reale. L'analisi comparativa rivela che, sebbene gli LLM all'avanguardia dimostrino un alto richiamo, soffrono di una bassa precisione a causa della sovragenerazione di contenuti allucinati, sottolineando la necessità di meccanismi di rilevamento specializzati. Rilasciando i nostri modelli e il dataset tradotto, questo lavoro colma una lacuna critica nell'NLP multilingue e getta le basi per lo sviluppo di applicazioni AI più affidabili e sicure per il turco e altre lingue.
English
The widespread adoption of Large Language Models (LLMs) has been hindered by
their tendency to hallucinate, generating plausible but factually incorrect
information. While Retrieval-Augmented Generation (RAG) systems attempt to
address this issue by grounding responses in external knowledge, hallucination
remains a persistent challenge, particularly for morphologically complex,
low-resource languages like Turkish. This paper introduces Turk-LettuceDetect,
the first suite of hallucination detection models specifically designed for
Turkish RAG applications. Building on the LettuceDetect framework, we formulate
hallucination detection as a token-level classification task and fine-tune
three distinct encoder architectures: a Turkish-specific ModernBERT,
TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a
machine-translated version of the RAGTruth benchmark dataset containing 17,790
instances across question answering, data-to-text generation, and summarization
tasks. Our experimental results show that the ModernBERT-based model achieves
an F1-score of 0.7266 on the complete test set, with particularly strong
performance on structured tasks. The models maintain computational efficiency
while supporting long contexts up to 8,192 tokens, making them suitable for
real-time deployment. Comparative analysis reveals that while state-of-the-art
LLMs demonstrate high recall, they suffer from low precision due to
over-generation of hallucinated content, underscoring the necessity of
specialized detection mechanisms. By releasing our models and translated
dataset, this work addresses a critical gap in multilingual NLP and establishes
a foundation for developing more reliable and trustworthy AI applications for
Turkish and other languages.