ChatPaper.aiChatPaper

Vorstellung von TrGLUE und SentiTurca: Ein umfassender Benchmark für türkisches Allgemeinsprachverständnis und Sentimentanalyse

Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis

December 26, 2025
papers.authors: Duygu Altinok
cs.AI

papers.abstract

Die Bewertung der Leistung verschiedener Modellarchitekturen wie Transformer, Large Language Models (LLMs) und anderer NLP-Systeme erfordert umfassende Benchmarks, die die Leistung über mehrere Dimensionen hinweg messen. Dabei ist die Evaluierung des natürlichen Sprachverständnisses (Natural Language Understanding, NLU) besonders entscheidend, da sie als grundlegendes Kriterium für die Beurteilung von Modellfähigkeiten dient. Daher ist es unerlässlich, Benchmarks zu etablieren, die eine gründliche Bewertung und Analyse von NLU-Fähigkeiten aus verschiedenen Perspektiven ermöglichen. Während der GLUE-Benchmark einen Standard für die Bewertung des englischen NLU gesetzt hat, wurden ähnliche Benchmarks für andere Sprachen entwickelt, wie CLUE für Chinesisch, FLUE für Französisch und JGLUE für Japanisch. Für die türkische Sprache existiert derzeit jedoch kein vergleichbarer Benchmark. Um diese Lücke zu schließen, führen wir TrGLUE ein, einen umfassenden Benchmark, der eine Vielzahl von NLU-Aufgaben für das Türkische umfasst. Zusätzlich präsentieren wir SentiTurca, einen spezialisierten Benchmark für Sentimentanalyse. Zur Unterstützung von Forschern stellen wir außerdem Fine-Tuning- und Evaluierungscode für transformerbasierte Modelle bereit, um die effektive Nutzung dieser Benchmarks zu erleichtern. TrGLUE umfasst türkischsprachige Korpora, die so zusammengestellt wurden, dass sie die Domänen und Aufgabenstellungen von GLUE-artigen Evaluationen widerspiegeln. Die Annotation der Labels erfolgte durch eine semi-automatisierte Pipeline, die eine robuste, LLM-basierte Annotation, Kreuzmodell-Übereinstimmungsprüfungen und nachfolgende menschliche Validierung kombiniert. Dieses Design priorisiert linguistische Natürlichkeit, minimiert Übersetzungsartefakte und ermöglicht einen skalierbaren, reproduzierbaren Workflow. Mit TrGLUE verfolgen wir das Ziel, einen robusten Evaluierungsrahmen für türkisches NLU zu etablieren, Forscher mit wertvollen Ressourcen auszustatten und Einblicke in die Erstellung hochwertiger semi-automatisierter Datensätze zu bieten.
English
Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.
PDF21December 31, 2025