ChatPaper.aiChatPaper

Представляем TrGLUE и SentiTurca: Комплексный эталонный тест для оценки общего понимания языка и анализа тональности на турецком языке

Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis

December 26, 2025
Авторы: Duygu Altinok
cs.AI

Аннотация

Оценка производительности различных архитектур моделей, таких как трансформеры, большие языковые модели (LLM) и другие системы обработки естественного языка (NLP), требует комплексных бенчмарков, измеряющих результаты по множеству параметров. Среди них оценка понимания естественного языка (NLU) является особенно важной, поскольку служит фундаментальным критерием для оценки возможностей моделей. Таким образом, необходимо создание бенчмарков, позволяющих проводить всестороннюю оценку и анализ способностей к NLU с различных точек зрения. В то время как бенчмарк GLUE установил стандарт для оценки английского NLU, для других языков были разработаны аналогичные бенчмарки, такие как CLUE для китайского, FLUE для французского и JGLUE для японского. Однако для турецкого языка на данный момент не существует сопоставимого бенчмарка. Чтобы заполнить этот пробел, мы представляем TrGLUE — комплексный бенчмарк, охватывающий разнообразные задачи NLU для турецкого языка. Дополнительно мы представляем SentiTurca, специализированный бенчмарк для анализа тональности. Для поддержки исследователей мы также предоставляем код для тонкой настройки и оценки моделей на основе трансформеров, облегчая эффективное использование этих бенчмарков. TrGLUE включает в себя корпуса на турецком языке, отобранные так, чтобы отражать домены и постановки задач в стиле GLUE, с разметкой, полученной с помощью полуавтоматического конвейера, сочетающего мощную аннотацию на основе LLM, проверку согласованности между моделями и последующую валидацию человеком. Такой подход prioritizes лингвистическую естественность, минимизирует артефакты прямого перевода и обеспечивает масштабируемый, воспроизводимый рабочий процесс. С помощью TrGLUE мы стремимся создать надежную систему оценки для турецкого NLU, предоставить исследователям ценные ресурсы и дать практические рекомендации по созданию высококачественных полуавтоматических наборов данных.
English
Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.
PDF21December 31, 2025