Introductie van TrGLUE en SentiTurca: Een Uitgebreide Benchmark voor Turks Algemeen Taalbegrip en Sentimentanalyse
Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis
December 26, 2025
Auteurs: Duygu Altinok
cs.AI
Samenvatting
Het evalueren van de prestaties van verschillende modelarchitecturen, zoals transformers, large language models (LLM's) en andere NLP-systemen, vereist uitgebreide benchmarks die de prestaties langs meerdere dimensies meten. Daarbij is de evaluatie van natural language understanding (NLU) bijzonder cruciaal, aangezien dit een fundamenteel criterium vormt voor het beoordelen van modelcapaciteiten. Het is daarom essentieel om benchmarks op te zetten die een grondige evaluatie en analyse van NLU-vaardigheden vanuit diverse perspectieven mogelijk maken. Hoewel de GLUE-benchmark een standaard heeft gezet voor het evalueren van Engelse NLU, zijn er voor andere talen vergelijkbare benchmarks ontwikkeld, zoals CLUE voor Chinees, FLUE voor Frans en JGLUE voor Japans. Voor de Turkse taal bestaat er echter momenteel geen vergelijkbare benchmark. Om dit hiaat op te vullen, introduceren wij TrGLUE, een uitgebreide benchmark die diverse NLU-taken voor het Turks omvat. Daarnaast presenteren wij SentiTurca, een gespecialiseerde benchmark voor sentimentanalyse. Om onderzoekers te ondersteunen, bieden wij ook fine-tuning- en evaluatiecode voor op transformers gebaseerde modellen aan, wat het effectieve gebruik van deze benchmarks vergemakkelijkt. TrGLUE omvat inheemse Turkse corpora die zijn samengesteld om de domeinen en taakformuleringen van GLUE-achtige evaluaties te weerspiegelen, waarbij de labels zijn verkregen via een semi-geautomatiseerde pijplijn die krachtige op LLM's gebaseerde annotatie, kruis-modelovereenstemmingscontroles en daaropvolgende menselijke validatie combineert. Dit ontwerp geeft prioriteit aan linguïstische natuurlijkheid, minimaliseert directe vertaalartefacten en levert een schaalbare, reproduceerbare workflow op. Met TrGLUE is ons doel om een robuust evaluatiekader voor Turkse NLU te vestigen, onderzoekers te voorzien van waardevolle hulpbronnen en inzichten te bieden in het genereren van hoogwaardige semi-geautomatiseerde datasets.
English
Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.