TrGLUE와 SentiTurca 소개: 터키어 일반 언어 이해 및 감성 분석을 위한 포괄적 벤치마크
Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis
December 26, 2025
저자: Duygu Altinok
cs.AI
초록
트랜스포머, 대규모 언어 모델(LLM), 기타 NLP 시스템과 같은 다양한 모델 아키텍처의 성능을 평가하려면 여러 차원에 걸쳐 성능을 측정하는 포괄적인 벤치마크가 필요합니다. 이 중 자연어 이해(NLU) 평가는 모델 능력 평가의 기본 기준으로 작용하기 때문에 특히 중요합니다. 따라서 다양한 관점에서 NLU 능력을 철저히 평가하고 분석할 수 있는 벤치마크를 구축하는 것이 필수적입니다. GLUE 벤치마크가 영어 NLU 평가의 표준을 제시한 반면, 중국어용 CLUE, 프랑스어용 FLUE, 일본어용 JGLUE와 같은 유사한 벤치마크가 다른 언어들에 대해 개발되었습니다. 그러나 터키어의 경우 현재 이에 상응하는 벤치마크가 존재하지 않습니다. 이러한 격차를 해소하기 위해 본 논문에서는 터키어 NLU 작업을 다양하게 포괄하는 종합 벤치마크인 TrGLUE를 소개합니다. 또한 감성 분석을 위한 전용 벤치마크인 SentiTurca를 제시합니다. 연구자들을 지원하기 위해 트랜스포머 기반 모델의 미세 조정 및 평가 코드도 제공하여 이러한 벤치마크의 효과적인 사용을 용이하게 합니다. TrGLUE는 GLUE 스타일 평가의 영역과 작업 구성을 반영하도록 구성된 터키어 원어 말뭉치로 구성되며, 강력한 LLM 기반 주석 처리, 교차 모델 일관성 검사 및 후속 인간 검증을 결합한 반자동화 파이프라인을 통해 레이블을 획득했습니다. 이 설계는 언어적 자연스러움을 최우선으로 하여 직접 번역에서 비롯된 인공적痕迹을 최소화하고 확장 가능하며 재현 가능한 워크플로를 제공합니다. TrGLUE를 통해 우리의 목표는 터키어 NLU를 위한 강력한 평가 프레임워크를 구축하고, 연구자들에게 가치 있는 자원을 제공하며, 고품질 반자동화 데이터셋 생성에 대한 통찰력을 제공하는 것입니다.
English
Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.