Apresentação do TrGLUE e SentiTurca: Um Benchmark Abrangente para a Compreensão da Linguagem Geral e Análise de Sentimentos em Turco

Resumo

A avaliação do desempenho de várias arquiteturas de modelos, como *transformers*, modelos de linguagem de grande escala (LLMs) e outros sistemas de PLN, requer *benchmarks* abrangentes que meçam o desempenho em múltiplas dimensões. Entre estas, a avaliação da compreensão de linguagem natural (CLN) é particularmente crítica, pois serve como um critério fundamental para aferir as capacidades dos modelos. Assim, é essencial estabelecer *benchmarks* que permitam uma avaliação e análise aprofundadas das habilidades de CLN sob diversas perspetivas. Embora o *benchmark* GLUE tenha estabelecido um padrão para avaliar a CLN em inglês, *benchmarks* semelhantes foram desenvolvidos para outros idiomas, como o CLUE para chinês, o FLUE para francês e o JGLUE para japonês. No entanto, atualmente não existe um *benchmark* comparável para a língua turca. Para colmatar esta lacuna, apresentamos o TrGLUE, um *benchmark* abrangente que engloba uma variedade de tarefas de CLN para turco. Adicionalmente, apresentamos o SentiTurca, um *benchmark* especializado para análise de sentimentos. Para apoiar os investigadores, disponibilizamos também código para *fine-tuning* e avaliação de modelos baseados em *transformers*, facilitando a utilização eficaz destes *benchmarks*. O TrGLUE é composto por corpora nativos em turco, curados para espelhar os domínios e as formulações de tarefas das avaliações do estilo GLUE, com etiquetas obtidas através de um *pipeline* semiautomatizado que combina anotação robusta baseada em LLMs, verificações de concordância entre modelos e subsequente validação humana. Este projeto prioriza a naturalidade linguística, minimiza artefactos de tradução direta e produz um fluxo de trabalho escalável e reproduzível. Com o TrGLUE, o nosso objetivo é estabelecer uma estrutura robusta de avaliação para a CLN em turco, capacitar os investigadores com recursos valiosos e fornecer insights para a geração de conjuntos de dados semiautomatizados de alta qualidade.

English

Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.

Apresentação do TrGLUE e SentiTurca: Um Benchmark Abrangente para a Compreensão da Linguagem Geral e Análise de Sentimentos em Turco

Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis

Resumo

Support