ChatPaper.aiChatPaper

Presentación de TrGLUE y SentiTurca: Un Punto de Referencia Integral para la Comprensión General del Lenguaje y el Análisis de Sentimientos en Turco

Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis

December 26, 2025
Autores: Duygu Altinok
cs.AI

Resumen

La evaluación del rendimiento de diversas arquitecturas de modelos, como los transformadores, los modelos de lenguaje extenso (LLM) y otros sistemas de PLN, requiere puntos de referencia integrales que midan el desempeño en múltiples dimensiones. Entre estas, la evaluación de la comprensión del lenguaje natural (CLN) es particularmente crítica, ya que sirve como un criterio fundamental para valorar las capacidades de los modelos. Por lo tanto, es esencial establecer benchmarks que permitan una evaluación y un análisis exhaustivo de las habilidades de CLN desde diversas perspectivas. Si bien el benchmark GLUE ha establecido un estándar para evaluar la CLN en inglés, se han desarrollado benchmarks similares para otros idiomas, como CLUE para chino, FLUE para francés y JGLUE para japonés. Sin embargo, actualmente no existe un benchmark comparable para el idioma turco. Para abordar esta brecha, presentamos TrGLUE, un benchmark integral que abarca una variedad de tareas de CLN para el turco. Adicionalmente, presentamos SentiTurca, un benchmark especializado para el análisis de sentimientos. Para apoyar a los investigadores, también proporcionamos código de ajuste fino y evaluación para modelos basados en transformadores, facilitando el uso efectivo de estos benchmarks. TrGLUE comprende corpus nativos en turco, seleccionados para reflejar los dominios y formulaciones de tareas de las evaluaciones al estilo GLUE, con etiquetas obtenidas mediante un proceso semi-automatizado que combina anotación robusta basada en LLM, verificaciones de concordancia entre modelos y una posterior validación humana. Este diseño prioriza la naturalidad lingüística, minimiza artefactos de traducción directa y produce un flujo de trabajo escalable y reproducible. Con TrGLUE, nuestro objetivo es establecer un marco de evaluación sólido para la CLN del turco, empoderar a los investigadores con recursos valiosos y proporcionar insights para la generación de conjuntos de datos semi-automatizados de alta calidad.
English
Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.
PDF21December 31, 2025