Turk-LettuceDetect : Un modèle de détection d'hallucinations pour les applications RAG en turc
Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications
September 22, 2025
papers.authors: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI
papers.abstract
L'adoption généralisée des modèles de langage de grande taille (LLMs) a été entravée par leur tendance à halluciner, générant des informations plausibles mais factuellement incorrectes. Bien que les systèmes de génération augmentée par récupération (RAG) tentent de résoudre ce problème en ancrant les réponses dans des connaissances externes, l'hallucination reste un défi persistant, en particulier pour les langues morphologiquement complexes et à faibles ressources comme le turc. Cet article présente Turk-LettuceDetect, la première suite de modèles de détection d'hallucinations spécifiquement conçue pour les applications RAG en turc. En s'appuyant sur le cadre LettuceDetect, nous formulons la détection d'hallucinations comme une tâche de classification au niveau des tokens et affinons trois architectures d'encodeurs distinctes : un ModernBERT spécifique au turc, TurkEmbed4STS, et un EuroBERT multilingue. Ces modèles ont été entraînés sur une version traduite automatiquement du jeu de données de référence RAGTruth contenant 17 790 instances couvrant des tâches de réponse à des questions, de génération de texte à partir de données et de résumé. Nos résultats expérimentaux montrent que le modèle basé sur ModernBERT atteint un score F1 de 0,7266 sur l'ensemble complet de test, avec une performance particulièrement forte sur les tâches structurées. Les modèles maintiennent une efficacité computationnelle tout en supportant des contextes longs jusqu'à 8 192 tokens, les rendant adaptés à un déploiement en temps réel. Une analyse comparative révèle que si les LLMs de pointe démontrent un rappel élevé, ils souffrent d'une faible précision due à la sur-génération de contenu halluciné, soulignant la nécessité de mécanismes de détection spécialisés. En publiant nos modèles et le jeu de données traduit, ce travail comble une lacune critique dans le traitement du langage naturel multilingue et établit une base pour développer des applications d'IA plus fiables et dignes de confiance pour le turc et d'autres langues.
English
The widespread adoption of Large Language Models (LLMs) has been hindered by
their tendency to hallucinate, generating plausible but factually incorrect
information. While Retrieval-Augmented Generation (RAG) systems attempt to
address this issue by grounding responses in external knowledge, hallucination
remains a persistent challenge, particularly for morphologically complex,
low-resource languages like Turkish. This paper introduces Turk-LettuceDetect,
the first suite of hallucination detection models specifically designed for
Turkish RAG applications. Building on the LettuceDetect framework, we formulate
hallucination detection as a token-level classification task and fine-tune
three distinct encoder architectures: a Turkish-specific ModernBERT,
TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a
machine-translated version of the RAGTruth benchmark dataset containing 17,790
instances across question answering, data-to-text generation, and summarization
tasks. Our experimental results show that the ModernBERT-based model achieves
an F1-score of 0.7266 on the complete test set, with particularly strong
performance on structured tasks. The models maintain computational efficiency
while supporting long contexts up to 8,192 tokens, making them suitable for
real-time deployment. Comparative analysis reveals that while state-of-the-art
LLMs demonstrate high recall, they suffer from low precision due to
over-generation of hallucinated content, underscoring the necessity of
specialized detection mechanisms. By releasing our models and translated
dataset, this work addresses a critical gap in multilingual NLP and establishes
a foundation for developing more reliable and trustworthy AI applications for
Turkish and other languages.