ChatPaper.aiChatPaper

Turk-LettuceDetect: Um Modelo de Detecção de Alucinações para Aplicações RAG em Turco

Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications

September 22, 2025
Autores: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu
cs.AI

Resumo

A adoção generalizada de Modelos de Linguagem de Grande Escala (LLMs) tem sido dificultada por sua tendência a alucinar, gerando informações plausíveis, mas factualmente incorretas. Embora os sistemas de Geração Aumentada por Recuperação (RAG) tentem abordar esse problema ao fundamentar as respostas em conhecimento externo, a alucinação continua sendo um desafio persistente, especialmente para línguas morfologicamente complexas e de baixos recursos, como o turco. Este artigo apresenta o Turk-LettuceDetect, o primeiro conjunto de modelos de detecção de alucinação especificamente projetado para aplicações RAG em turco. Baseando-se na estrutura do LettuceDetect, formulamos a detecção de alucinação como uma tarefa de classificação em nível de token e ajustamos três arquiteturas distintas de codificadores: um ModernBERT específico para turco, TurkEmbed4STS e o EuroBERT multilíngue. Esses modelos foram treinados em uma versão traduzida automaticamente do conjunto de dados de referência RAGTruth, contendo 17.790 instâncias em tarefas de resposta a perguntas, geração de texto a partir de dados e sumarização. Nossos resultados experimentais mostram que o modelo baseado no ModernBERT alcança um F1-score de 0,7266 no conjunto de testes completo, com desempenho particularmente forte em tarefas estruturadas. Os modelos mantêm eficiência computacional enquanto suportam contextos longos de até 8.192 tokens, tornando-os adequados para implantação em tempo real. A análise comparativa revela que, embora os LLMs de última geração demonstrem alta recall, eles sofrem com baixa precisão devido à supergeração de conteúdo alucinado, destacando a necessidade de mecanismos especializados de detecção. Ao liberar nossos modelos e o conjunto de dados traduzido, este trabalho aborda uma lacuna crítica no PLN multilíngue e estabelece uma base para o desenvolvimento de aplicações de IA mais confiáveis e seguras para o turco e outras línguas.
English
The widespread adoption of Large Language Models (LLMs) has been hindered by their tendency to hallucinate, generating plausible but factually incorrect information. While Retrieval-Augmented Generation (RAG) systems attempt to address this issue by grounding responses in external knowledge, hallucination remains a persistent challenge, particularly for morphologically complex, low-resource languages like Turkish. This paper introduces Turk-LettuceDetect, the first suite of hallucination detection models specifically designed for Turkish RAG applications. Building on the LettuceDetect framework, we formulate hallucination detection as a token-level classification task and fine-tune three distinct encoder architectures: a Turkish-specific ModernBERT, TurkEmbed4STS, and multilingual EuroBERT. These models were trained on a machine-translated version of the RAGTruth benchmark dataset containing 17,790 instances across question answering, data-to-text generation, and summarization tasks. Our experimental results show that the ModernBERT-based model achieves an F1-score of 0.7266 on the complete test set, with particularly strong performance on structured tasks. The models maintain computational efficiency while supporting long contexts up to 8,192 tokens, making them suitable for real-time deployment. Comparative analysis reveals that while state-of-the-art LLMs demonstrate high recall, they suffer from low precision due to over-generation of hallucinated content, underscoring the necessity of specialized detection mechanisms. By releasing our models and translated dataset, this work addresses a critical gap in multilingual NLP and establishes a foundation for developing more reliable and trustworthy AI applications for Turkish and other languages.
PDF92September 23, 2025