Turk-LettuceDetect : Un modèle de détection d'hallucinations pour les applications RAG en turc

papers.abstract

L'adoption généralisée des modèles de langage de grande taille (LLMs) a été entravée par leur tendance à halluciner, générant des informations plausibles mais factuellement incorrectes. Bien que les systèmes de génération augmentée par récupération (RAG) tentent de résoudre ce problème en ancrant les réponses dans des connaissances externes, l'hallucination reste un défi persistant, en particulier pour les langues morphologiquement complexes et à faibles ressources comme le turc. Cet article présente Turk-LettuceDetect, la première suite de modèles de détection d'hallucinations spécifiquement conçue pour les applications RAG en turc. En s'appuyant sur le cadre LettuceDetect, nous formulons la détection d'hallucinations comme une tâche de classification au niveau des tokens et affinons trois architectures d'encodeurs distinctes : un ModernBERT spécifique au turc, TurkEmbed4STS, et un EuroBERT multilingue. Ces modèles ont été entraînés sur une version traduite automatiquement du jeu de données de référence RAGTruth contenant 17 790 instances couvrant des tâches de réponse à des questions, de génération de texte à partir de données et de résumé. Nos résultats expérimentaux montrent que le modèle basé sur ModernBERT atteint un score F1 de 0,7266 sur l'ensemble complet de test, avec une performance particulièrement forte sur les tâches structurées. Les modèles maintiennent une efficacité computationnelle tout en supportant des contextes longs jusqu'à 8 192 tokens, les rendant adaptés à un déploiement en temps réel. Une analyse comparative révèle que si les LLMs de pointe démontrent un rappel élevé, ils souffrent d'une faible précision due à la sur-génération de contenu halluciné, soulignant la nécessité de mécanismes de détection spécialisés. En publiant nos modèles et le jeu de données traduit, ce travail comble une lacune critique dans le traitement du langage naturel multilingue et établit une base pour développer des applications d'IA plus fiables et dignes de confiance pour le turc et d'autres langues.

English

The widespread adoption of Large Language Models (LLMs) has been hindered by their tendency to hallucinate, generating plausible but factually incorrect information. While Retrieval-Augmented Generation (RAG) systems attempt to address this issue by grounding responses in external knowledge, hallucination remains a persistent challenge, particularly for morphologically complex, low-resource languages like Turkish. This paper introduces Turk-LettuceDetect, the first suite of hallucination detection models specifically designed for Turkish RAG applications. Building on the LettuceDetect framework, we formulate hallucination detection as a token-level classification task and fine-tune three distinct encoder architectures: a Turkish-specific ModernBERT, TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a machine-translated version of the RAGTruth benchmark dataset containing 17,790 instances across question answering, data-to-text generation, and summarization tasks. Our experimental results show that the ModernBERT-based model achieves an F1-score of 0.7266 on the complete test set, with particularly strong performance on structured tasks. The models maintain computational efficiency while supporting long contexts up to 8,192 tokens, making them suitable for real-time deployment. Comparative analysis reveals that while state-of-the-art LLMs demonstrate high recall, they suffer from low precision due to over-generation of hallucinated content, underscoring the necessity of specialized detection mechanisms. By releasing our models and translated dataset, this work addresses a critical gap in multilingual NLP and establishes a foundation for developing more reliable and trustworthy AI applications for Turkish and other languages.

Turk-LettuceDetect : Un modèle de détection d'hallucinations pour les applications RAG en turc

Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications

papers.abstract

Support