Présentation de TrGLUE et SentiTurca : Un Benchmark Complet pour la Compréhension Générale du Langage et l'Analyse de Sentiments en Turc
Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis
December 26, 2025
papers.authors: Duygu Altinok
cs.AI
papers.abstract
L'évaluation des performances de diverses architectures de modèles, telles que les transformers, les grands modèles de langage (LLM) et autres systèmes de TAL, nécessite des benchmarks complets qui mesurent les performances selon de multiples dimensions. Parmi celles-ci, l'évaluation de la compréhension du langage naturel (NLU) est particulièrement cruciale car elle sert de critère fondamental pour évaluer les capacités des modèles. Il est donc essentiel d'établir des benchmarks permettant une évaluation et une analyse approfondies des capacités de NLU sous divers angles. Si le benchmark GLUE a établi une norme pour l'évaluation de la NLU anglaise, des benchmarks similaires ont été développés pour d'autres langues, tels que CLUE pour le chinois, FLUE pour le français et JGLUE pour le japonais. Cependant, aucun benchmark comparable n'existe actuellement pour la langue turque. Pour combler cette lacune, nous présentons TrGLUE, un benchmark complet englobant une variété de tâches de NLU pour le turc. De plus, nous présentons SentiTurca, un benchmark spécialisé dans l'analyse des sentiments. Pour soutenir les chercheurs, nous fournissons également un code de fine-tuning et d'évaluation pour les modèles basés sur les transformers, facilitant ainsi l'utilisation efficace de ces benchmarks. TrGLUE comprend des corpus natifs turcs conçus pour refléter les domaines et les formulations de tâches des évaluations de type GLUE, avec des étiquettes obtenues via un pipeline semi-automatisé combinant une annotation robuste basée sur les LLM, des vérifications de concordance inter-modèles et une validation humaine ultérieure. Cette conception privilégie le naturel linguistique, minimise les artéfacts de traduction directe et produit un workflow reproductible et évolutif. Avec TrGLUE, notre objectif est d'établir un cadre d'évaluation robuste pour la NLU turque, de doter les chercheurs de ressources précieuses et de fournir des insights sur la génération d'ensembles de données semi-automatisés de haute qualité.
English
Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.