Turk-LettuceDetect: Ein Halluzinationserkennungsmodell für türkische RAG-Anwendungen
Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications
September 22, 2025
papers.authors: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI
papers.abstract
Die weitverbreitete Einführung von Large Language Models (LLMs) wird durch ihre Tendenz zur Halluzination behindert, bei der sie plausible, aber faktisch falsche Informationen generieren. Während Retrieval-Augmented Generation (RAG)-Systeme versuchen, dieses Problem zu lösen, indem sie Antworten in externem Wissen verankern, bleibt die Halluzination eine anhaltende Herausforderung, insbesondere für morphologisch komplexe, ressourcenarme Sprachen wie Türkisch. Diese Arbeit stellt Turk-LettuceDetect vor, die erste Suite von Halluzinationserkennungsmodellen, die speziell für türkische RAG-Anwendungen entwickelt wurde. Aufbauend auf dem LettuceDetect-Framework formulieren wir die Halluzinationserkennung als eine Token-Level-Klassifikationsaufgabe und feintunen drei verschiedene Encoder-Architekturen: einen türkisch-spezifischen ModernBERT, TurkEmbed4STS und den mehrsprachigen EuroBERT. Diese Modelle wurden auf einer maschinell übersetzten Version des RAGTruth-Benchmark-Datensatzes trainiert, der 17.790 Instanzen aus den Bereichen Frage-Antwort, Daten-zu-Text-Generierung und Zusammenfassung enthält. Unsere experimentellen Ergebnisse zeigen, dass das auf ModernBERT basierende Modell einen F1-Score von 0,7266 auf dem vollständigen Testdatensatz erreicht, mit besonders starker Leistung bei strukturierten Aufgaben. Die Modelle behalten ihre Recheneffizienz bei und unterstützen lange Kontexte von bis zu 8.192 Tokens, was sie für den Einsatz in Echtzeit geeignet macht. Eine vergleichende Analyse zeigt, dass zwar state-of-the-art LLMs eine hohe Recall-Rate aufweisen, sie jedoch unter einer niedrigen Präzision leiden, da sie übermäßig halluzinierte Inhalte generieren, was die Notwendigkeit spezialisierter Erkennungsmechanismen unterstreicht. Durch die Veröffentlichung unserer Modelle und des übersetzten Datensatzes schließt diese Arbeit eine kritische Lücke im Bereich der mehrsprachigen NLP und legt den Grundstein für die Entwicklung zuverlässigerer und vertrauenswürdigerer KI-Anwendungen für das Türkische und andere Sprachen.
English
The widespread adoption of Large Language Models (LLMs) has been hindered by
their tendency to hallucinate, generating plausible but factually incorrect
information. While Retrieval-Augmented Generation (RAG) systems attempt to
address this issue by grounding responses in external knowledge, hallucination
remains a persistent challenge, particularly for morphologically complex,
low-resource languages like Turkish. This paper introduces Turk-LettuceDetect,
the first suite of hallucination detection models specifically designed for
Turkish RAG applications. Building on the LettuceDetect framework, we formulate
hallucination detection as a token-level classification task and fine-tune
three distinct encoder architectures: a Turkish-specific ModernBERT,
TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a
machine-translated version of the RAGTruth benchmark dataset containing 17,790
instances across question answering, data-to-text generation, and summarization
tasks. Our experimental results show that the ModernBERT-based model achieves
an F1-score of 0.7266 on the complete test set, with particularly strong
performance on structured tasks. The models maintain computational efficiency
while supporting long contexts up to 8,192 tokens, making them suitable for
real-time deployment. Comparative analysis reveals that while state-of-the-art
LLMs demonstrate high recall, they suffer from low precision due to
over-generation of hallucinated content, underscoring the necessity of
specialized detection mechanisms. By releasing our models and translated
dataset, this work addresses a critical gap in multilingual NLP and establishes
a foundation for developing more reliable and trustworthy AI applications for
Turkish and other languages.