Turk-LettuceDetect: Modelos de Detección de Alucinaciones para Aplicaciones RAG en Turco

Resumen

La adopción generalizada de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se ha visto obstaculizada por su tendencia a alucinar, generando información plausible pero factualmente incorrecta. Aunque los sistemas de Generación Aumentada con Recuperación (RAG, por sus siglas en inglés) intentan abordar este problema al fundamentar las respuestas en conocimiento externo, la alucinación sigue siendo un desafío persistente, particularmente para lenguas morfológicamente complejas y de bajos recursos, como el turco. Este artículo presenta Turk-LettuceDetect, el primer conjunto de modelos de detección de alucinaciones específicamente diseñado para aplicaciones RAG en turco. Basándonos en el marco LettuceDetect, formulamos la detección de alucinaciones como una tarea de clasificación a nivel de tokens y ajustamos tres arquitecturas de codificadores distintas: un ModernBERT específico para turco, TurkEmbed4STS y un EuroBERT multilingüe. Estos modelos se entrenaron en una versión traducida automáticamente del conjunto de datos de referencia RAGTruth, que contiene 17,790 instancias en tareas de respuesta a preguntas, generación de texto a partir de datos y resúmenes. Nuestros resultados experimentales muestran que el modelo basado en ModernBERT alcanza un puntaje F1 de 0.7266 en el conjunto de pruebas completo, con un rendimiento particularmente fuerte en tareas estructuradas. Los modelos mantienen la eficiencia computacional mientras admiten contextos largos de hasta 8,192 tokens, lo que los hace adecuados para su implementación en tiempo real. Un análisis comparativo revela que, aunque los LLMs de última generación demuestran una alta recuperación, sufren de baja precisión debido a la sobre-generación de contenido alucinado, subrayando la necesidad de mecanismos de detección especializados. Al liberar nuestros modelos y el conjunto de datos traducido, este trabajo aborda una brecha crítica en el Procesamiento del Lenguaje Natural (PLN) multilingüe y establece una base para desarrollar aplicaciones de IA más confiables y seguras para el turco y otros idiomas.

English

The widespread adoption of Large Language Models (LLMs) has been hindered by their tendency to hallucinate, generating plausible but factually incorrect information. While Retrieval-Augmented Generation (RAG) systems attempt to address this issue by grounding responses in external knowledge, hallucination remains a persistent challenge, particularly for morphologically complex, low-resource languages like Turkish. This paper introduces Turk-LettuceDetect, the first suite of hallucination detection models specifically designed for Turkish RAG applications. Building on the LettuceDetect framework, we formulate hallucination detection as a token-level classification task and fine-tune three distinct encoder architectures: a Turkish-specific ModernBERT, TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a machine-translated version of the RAGTruth benchmark dataset containing 17,790 instances across question answering, data-to-text generation, and summarization tasks. Our experimental results show that the ModernBERT-based model achieves an F1-score of 0.7266 on the complete test set, with particularly strong performance on structured tasks. The models maintain computational efficiency while supporting long contexts up to 8,192 tokens, making them suitable for real-time deployment. Comparative analysis reveals that while state-of-the-art LLMs demonstrate high recall, they suffer from low precision due to over-generation of hallucinated content, underscoring the necessity of specialized detection mechanisms. By releasing our models and translated dataset, this work addresses a critical gap in multilingual NLP and establishes a foundation for developing more reliable and trustworthy AI applications for Turkish and other languages.