Turk-LettuceDetect: Модели обнаружения галлюцинаций для турецких приложений RAG

Аннотация

Широкое внедрение крупных языковых моделей (LLM) сдерживается их склонностью к галлюцинациям, то есть генерации правдоподобной, но фактически неверной информации. Хотя системы генерации с использованием извлечения знаний (RAG) пытаются решить эту проблему, основывая ответы на внешних источниках, галлюцинации остаются устойчивой проблемой, особенно для морфологически сложных языков с ограниченными ресурсами, таких как турецкий. В данной статье представлен Turk-LettuceDetect — первый набор моделей для обнаружения галлюцинаций, специально разработанных для RAG-приложений на турецком языке. Основываясь на фреймворке LettuceDetect, мы формулируем задачу обнаружения галлюцинаций как классификацию на уровне токенов и дообучаем три различные архитектуры энкодеров: ModernBERT, адаптированный для турецкого языка, TurkEmbed4STS и многоязычный EuroBERT. Эти модели были обучены на машинно-переведенной версии набора данных RAGTruth, содержащего 17 790 примеров для задач ответов на вопросы, генерации текста из данных и суммаризации. Наши экспериментальные результаты показывают, что модель на основе ModernBERT достигает F1-меры 0,7266 на полном тестовом наборе, демонстрируя особенно высокую производительность на структурированных задачах. Модели сохраняют вычислительную эффективность, поддерживая длинные контексты до 8 192 токенов, что делает их пригодными для использования в реальном времени. Сравнительный анализ показывает, что, хотя современные LLM демонстрируют высокую полноту, они страдают от низкой точности из-за чрезмерной генерации галлюцинированного контента, что подчеркивает необходимость специализированных механизмов обнаружения. Публикуя наши модели и переведенный набор данных, эта работа устраняет критический пробел в многоязычной обработке естественного языка и закладывает основу для разработки более надежных и доверенных ИИ-приложений для турецкого и других языков.

English

The widespread adoption of Large Language Models (LLMs) has been hindered by their tendency to hallucinate, generating plausible but factually incorrect information. While Retrieval-Augmented Generation (RAG) systems attempt to address this issue by grounding responses in external knowledge, hallucination remains a persistent challenge, particularly for morphologically complex, low-resource languages like Turkish. This paper introduces Turk-LettuceDetect, the first suite of hallucination detection models specifically designed for Turkish RAG applications. Building on the LettuceDetect framework, we formulate hallucination detection as a token-level classification task and fine-tune three distinct encoder architectures: a Turkish-specific ModernBERT, TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a machine-translated version of the RAGTruth benchmark dataset containing 17,790 instances across question answering, data-to-text generation, and summarization tasks. Our experimental results show that the ModernBERT-based model achieves an F1-score of 0.7266 on the complete test set, with particularly strong performance on structured tasks. The models maintain computational efficiency while supporting long contexts up to 8,192 tokens, making them suitable for real-time deployment. Comparative analysis reveals that while state-of-the-art LLMs demonstrate high recall, they suffer from low precision due to over-generation of hallucinated content, underscoring the necessity of specialized detection mechanisms. By releasing our models and translated dataset, this work addresses a critical gap in multilingual NLP and establishes a foundation for developing more reliable and trustworthy AI applications for Turkish and other languages.

Turk-LettuceDetect: Модели обнаружения галлюцинаций для турецких приложений RAG

Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications

Аннотация

Support