Turk-LettuceDetect: Модели обнаружения галлюцинаций для турецких приложений RAG
Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications
September 22, 2025
Авторы: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI
Аннотация
Широкое внедрение крупных языковых моделей (LLM) сдерживается их склонностью к галлюцинациям, то есть генерации правдоподобной, но фактически неверной информации. Хотя системы генерации с использованием извлечения знаний (RAG) пытаются решить эту проблему, основывая ответы на внешних источниках, галлюцинации остаются устойчивой проблемой, особенно для морфологически сложных языков с ограниченными ресурсами, таких как турецкий. В данной статье представлен Turk-LettuceDetect — первый набор моделей для обнаружения галлюцинаций, специально разработанных для RAG-приложений на турецком языке. Основываясь на фреймворке LettuceDetect, мы формулируем задачу обнаружения галлюцинаций как классификацию на уровне токенов и дообучаем три различные архитектуры энкодеров: ModernBERT, адаптированный для турецкого языка, TurkEmbed4STS и многоязычный EuroBERT. Эти модели были обучены на машинно-переведенной версии набора данных RAGTruth, содержащего 17 790 примеров для задач ответов на вопросы, генерации текста из данных и суммаризации. Наши экспериментальные результаты показывают, что модель на основе ModernBERT достигает F1-меры 0,7266 на полном тестовом наборе, демонстрируя особенно высокую производительность на структурированных задачах. Модели сохраняют вычислительную эффективность, поддерживая длинные контексты до 8 192 токенов, что делает их пригодными для использования в реальном времени. Сравнительный анализ показывает, что, хотя современные LLM демонстрируют высокую полноту, они страдают от низкой точности из-за чрезмерной генерации галлюцинированного контента, что подчеркивает необходимость специализированных механизмов обнаружения. Публикуя наши модели и переведенный набор данных, эта работа устраняет критический пробел в многоязычной обработке естественного языка и закладывает основу для разработки более надежных и доверенных ИИ-приложений для турецкого и других языков.
English
The widespread adoption of Large Language Models (LLMs) has been hindered by
their tendency to hallucinate, generating plausible but factually incorrect
information. While Retrieval-Augmented Generation (RAG) systems attempt to
address this issue by grounding responses in external knowledge, hallucination
remains a persistent challenge, particularly for morphologically complex,
low-resource languages like Turkish. This paper introduces Turk-LettuceDetect,
the first suite of hallucination detection models specifically designed for
Turkish RAG applications. Building on the LettuceDetect framework, we formulate
hallucination detection as a token-level classification task and fine-tune
three distinct encoder architectures: a Turkish-specific ModernBERT,
TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a
machine-translated version of the RAGTruth benchmark dataset containing 17,790
instances across question answering, data-to-text generation, and summarization
tasks. Our experimental results show that the ModernBERT-based model achieves
an F1-score of 0.7266 on the complete test set, with particularly strong
performance on structured tasks. The models maintain computational efficiency
while supporting long contexts up to 8,192 tokens, making them suitable for
real-time deployment. Comparative analysis reveals that while state-of-the-art
LLMs demonstrate high recall, they suffer from low precision due to
over-generation of hallucinated content, underscoring the necessity of
specialized detection mechanisms. By releasing our models and translated
dataset, this work addresses a critical gap in multilingual NLP and establishes
a foundation for developing more reliable and trustworthy AI applications for
Turkish and other languages.