Turk-LettuceDetect: Un Modello di Rilevamento di Allucinazioni per Applicazioni RAG in Turco

Abstract

L'adozione diffusa dei Large Language Model (LLM) è stata ostacolata dalla loro tendenza a generare allucinazioni, producendo informazioni plausibili ma fattualmente errate. Sebbene i sistemi di Retrieval-Augmented Generation (RAG) cerchino di affrontare questo problema ancorando le risposte a conoscenze esterne, le allucinazioni rimangono una sfida persistente, specialmente per lingue morfologicamente complesse e a bassa risorsa come il turco. Questo articolo introduce Turk-LettuceDetect, la prima suite di modelli di rilevamento delle allucinazioni specificamente progettata per applicazioni RAG in turco. Basandoci sul framework LettuceDetect, formuliamo il rilevamento delle allucinazioni come un compito di classificazione a livello di token e ottimizziamo tre distinte architetture di encoder: un ModernBERT specifico per il turco, TurkEmbed4STS e un EuroBERT multilingue. Questi modelli sono stati addestrati su una versione tradotta automaticamente del dataset di benchmark RAGTruth, contenente 17.790 istanze relative a compiti di risposta a domande, generazione da dati a testo e riassunto. I nostri risultati sperimentali mostrano che il modello basato su ModernBERT raggiunge un punteggio F1 di 0,7266 sull'intero set di test, con prestazioni particolarmente forti sui compiti strutturati. I modelli mantengono un'efficienza computazionale pur supportando contesti lunghi fino a 8.192 token, rendendoli adatti per il dispiegamento in tempo reale. L'analisi comparativa rivela che, sebbene gli LLM all'avanguardia dimostrino un alto richiamo, soffrono di una bassa precisione a causa della sovragenerazione di contenuti allucinati, sottolineando la necessità di meccanismi di rilevamento specializzati. Rilasciando i nostri modelli e il dataset tradotto, questo lavoro colma una lacuna critica nell'NLP multilingue e getta le basi per lo sviluppo di applicazioni AI più affidabili e sicure per il turco e altre lingue.

English

The widespread adoption of Large Language Models (LLMs) has been hindered by their tendency to hallucinate, generating plausible but factually incorrect information. While Retrieval-Augmented Generation (RAG) systems attempt to address this issue by grounding responses in external knowledge, hallucination remains a persistent challenge, particularly for morphologically complex, low-resource languages like Turkish. This paper introduces Turk-LettuceDetect, the first suite of hallucination detection models specifically designed for Turkish RAG applications. Building on the LettuceDetect framework, we formulate hallucination detection as a token-level classification task and fine-tune three distinct encoder architectures: a Turkish-specific ModernBERT, TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a machine-translated version of the RAGTruth benchmark dataset containing 17,790 instances across question answering, data-to-text generation, and summarization tasks. Our experimental results show that the ModernBERT-based model achieves an F1-score of 0.7266 on the complete test set, with particularly strong performance on structured tasks. The models maintain computational efficiency while supporting long contexts up to 8,192 tokens, making them suitable for real-time deployment. Comparative analysis reveals that while state-of-the-art LLMs demonstrate high recall, they suffer from low precision due to over-generation of hallucinated content, underscoring the necessity of specialized detection mechanisms. By releasing our models and translated dataset, this work addresses a critical gap in multilingual NLP and establishes a foundation for developing more reliable and trustworthy AI applications for Turkish and other languages.

Turk-LettuceDetect: Un Modello di Rilevamento di Allucinazioni per Applicazioni RAG in Turco

Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications

Abstract

Support