トルコ語の汎用言語理解と感情分析のための包括的ベンチマーク:TrGLUEとSentiTurcaの紹介
Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis
December 26, 2025
著者: Duygu Altinok
cs.AI
要旨
様々なモデルアーキテクチャ(トランスフォーマー、大規模言語モデル(LLM)、その他のNLPシステムなど)の性能を評価するには、複数の次元にわたって性能を測定する包括的なベンチマークが必要である。中でも自然言語理解(NLU)の評価は、モデルの能力を評価する基本的な基準として特に重要である。したがって、多様な視点からNLU能力を徹底的に評価・分析できるベンチマークを確立することが不可欠である。GLUEベンチマークは英語NLU評価の標準を確立したが、中国語のCLUE、フランス語のFLUE、日本語のJGLUEなど、他の言語でも同様のベンチマークが開発されている。しかし、トルコ語には現在、これに相当するベンチマークが存在しない。この空白を埋めるため、我々はトルコ語における様々なNLUタスクを含む包括的なベンチマーク「TrGLUE」を提案する。さらに、感情分析に特化したベンチマーク「SentiTurca」も併せて提示する。研究者を支援するため、トランスフォーマーベースモデルのファインチューニング及び評価コードも提供し、これらのベンチマークの効果的な利用を促進する。TrGLUEは、GLUEスタイルの評価の領域とタスク設定を反映するよう選定されたトルコ語ネイティブのコーパスで構成され、ラベルは強力なLLMベースの注釈、クロスモデル合意チェック、その後に行う人的検証を組み合わせた半自動パイプラインを通じて取得されている。この設計は言語的自然性を優先し、直接翻訳による人為的痕跡を最小化するとともに、拡張性と再現性の高いワークフローを実現する。TrGLUEを通じて、我々の目標はトルコ語NLUのための堅牢な評価枠組みを確立し、研究者に貴重なリソースを提供し、高品質な半自動データセット生成に関する知見を提供することである。
English
Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.