Presentazione di TrGLUE e SentiTurca: un Benchmark Completo per la Comprensione Linguistica Generale e l'Analisi del Sentimento in Turco
Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis
December 26, 2025
Autori: Duygu Altinok
cs.AI
Abstract
La valutazione delle prestazioni di varie architetture di modelli, come i transformer, i grandi modelli linguistici (LLM) e altri sistemi di NLP, richiede benchmark completi che misurino le prestazioni su molteplici dimensioni. Tra queste, la valutazione della comprensione del linguaggio naturale (NLU) è particolarmente critica in quanto costituisce un criterio fondamentale per valutare le capacità dei modelli. Pertanto, è essenziale stabilire benchmark che consentano una valutazione e un'analisi approfondite delle abilità di NLU da diverse prospettive. Sebbene il benchmark GLUE abbia stabilito uno standard per la valutazione dell'NLU inglese, benchmark simili sono stati sviluppati per altre lingue, come CLUE per il cinese, FLUE per il francese e JGLUE per il giapponese. Tuttavia, al momento non esiste un benchmark comparabile per la lingua turca. Per colmare questa lacuna, introduciamo TrGLUE, un benchmark completo che comprende una varietà di compiti di NLU per il turco. Inoltre, presentiamo SentiTurca, un benchmark specializzato per l'analisi del sentiment. Per supportare i ricercatori, forniamo anche codice per il fine-tuning e la valutazione di modelli basati su transformer, facilitando l'uso efficace di questi benchmark. TrGLUE comprende corpora nativi per il turco, selezionati per rispecchiare i domini e le formulazioni dei compiti delle valutazioni in stile GLUE, con etichette ottenute attraverso una pipeline semi-automatizzata che combina annotazione avanzata basata su LLM, controlli di accordo incrociato tra modelli e successiva validazione umana. Questo progetto privilegia la naturalezza linguistica, minimizza gli artefatti da traduzione diretta e produce un flusso di lavoro scalabile e riproducibile. Con TrGLUE, il nostro obiettivo è stabilire un quadro di valutazione solido per l'NLU turco, fornire ai ricercatori risorse preziose e offrire spunti per la generazione di dataset semi-automatizzati di alta qualità.
English
Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.