AraLingBench: Um Benchmark Anotado por Humanos para Avaliar as Capacidades Linguísticas Árabes de Modelos de Linguagem de Grande Escala

Resumo

Apresentamos o AraLingBench: um benchmark totalmente anotado por humanos para avaliar a competência linguística em árabe de modelos de linguagem de grande escala (LLMs). O benchmark abrange cinco categorias principais: gramática, morfologia, ortografia, compreensão de leitura e sintaxe, por meio de 150 questões de múltipla escolha elaboradas por especialistas que avaliam diretamente o entendimento estrutural da língua. A avaliação de 35 LLMs em árabe e bilíngues revela que os modelos atuais demonstram forte proficiência superficial, mas enfrentam dificuldades com raciocínios gramaticais e sintáticos mais profundos. O AraLingBench destaca uma lacuna persistente entre altas pontuações em benchmarks baseados em conhecimento e o verdadeiro domínio linguístico, mostrando que muitos modelos obtêm sucesso por meio de memorização ou reconhecimento de padrões, em vez de compreensão autêntica. Ao isolar e medir habilidades linguísticas fundamentais, o AraLingBench fornece uma estrutura diagnóstica para o desenvolvimento de LLMs em árabe. O código completo de avaliação está disponível publicamente no GitHub.

English

We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.

AraLingBench: Um Benchmark Anotado por Humanos para Avaliar as Capacidades Linguísticas Árabes de Modelos de Linguagem de Grande Escala

AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

Resumo

Support