Turk-LettuceDetect: Modelos de Detección de Alucinaciones para Aplicaciones RAG en Turco
Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications
September 22, 2025
Autores: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI
Resumen
La adopción generalizada de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se ha visto obstaculizada por su tendencia a alucinar, generando información plausible pero factualmente incorrecta. Aunque los sistemas de Generación Aumentada con Recuperación (RAG, por sus siglas en inglés) intentan abordar este problema al fundamentar las respuestas en conocimiento externo, la alucinación sigue siendo un desafío persistente, particularmente para lenguas morfológicamente complejas y de bajos recursos, como el turco. Este artículo presenta Turk-LettuceDetect, el primer conjunto de modelos de detección de alucinaciones específicamente diseñado para aplicaciones RAG en turco. Basándonos en el marco LettuceDetect, formulamos la detección de alucinaciones como una tarea de clasificación a nivel de tokens y ajustamos tres arquitecturas de codificadores distintas: un ModernBERT específico para turco, TurkEmbed4STS y un EuroBERT multilingüe. Estos modelos se entrenaron en una versión traducida automáticamente del conjunto de datos de referencia RAGTruth, que contiene 17,790 instancias en tareas de respuesta a preguntas, generación de texto a partir de datos y resúmenes. Nuestros resultados experimentales muestran que el modelo basado en ModernBERT alcanza un puntaje F1 de 0.7266 en el conjunto de pruebas completo, con un rendimiento particularmente fuerte en tareas estructuradas. Los modelos mantienen la eficiencia computacional mientras admiten contextos largos de hasta 8,192 tokens, lo que los hace adecuados para su implementación en tiempo real. Un análisis comparativo revela que, aunque los LLMs de última generación demuestran una alta recuperación, sufren de baja precisión debido a la sobre-generación de contenido alucinado, subrayando la necesidad de mecanismos de detección especializados. Al liberar nuestros modelos y el conjunto de datos traducido, este trabajo aborda una brecha crítica en el Procesamiento del Lenguaje Natural (PLN) multilingüe y establece una base para desarrollar aplicaciones de IA más confiables y seguras para el turco y otros idiomas.
English
The widespread adoption of Large Language Models (LLMs) has been hindered by
their tendency to hallucinate, generating plausible but factually incorrect
information. While Retrieval-Augmented Generation (RAG) systems attempt to
address this issue by grounding responses in external knowledge, hallucination
remains a persistent challenge, particularly for morphologically complex,
low-resource languages like Turkish. This paper introduces Turk-LettuceDetect,
the first suite of hallucination detection models specifically designed for
Turkish RAG applications. Building on the LettuceDetect framework, we formulate
hallucination detection as a token-level classification task and fine-tune
three distinct encoder architectures: a Turkish-specific ModernBERT,
TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a
machine-translated version of the RAGTruth benchmark dataset containing 17,790
instances across question answering, data-to-text generation, and summarization
tasks. Our experimental results show that the ModernBERT-based model achieves
an F1-score of 0.7266 on the complete test set, with particularly strong
performance on structured tasks. The models maintain computational efficiency
while supporting long contexts up to 8,192 tokens, making them suitable for
real-time deployment. Comparative analysis reveals that while state-of-the-art
LLMs demonstrate high recall, they suffer from low precision due to
over-generation of hallucinated content, underscoring the necessity of
specialized detection mechanisms. By releasing our models and translated
dataset, this work addresses a critical gap in multilingual NLP and establishes
a foundation for developing more reliable and trustworthy AI applications for
Turkish and other languages.