AraLingBench: Een door mensen geannoteerde benchmark voor het evalueren van de Arabische linguïstische capaciteiten van grote taalmodelen
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
November 18, 2025
Auteurs: Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem
cs.AI
Samenvatting
Wij presenteren AraLingBench: een volledig door mensen geannoteerde benchmark voor het evalueren van de Arabische taalkundige competentie van grote taalmodel(len) (LLM's). De benchmark omvat vijf kerncategorieën: grammatica, morfologie, spelling, leesbegrip en syntaxis, via 150 door experts ontworpen meerkeuzevragen die het structurele taalbegrip direct toetsen. Evaluatie van 35 Arabische en tweetalige LLM's toont aan dat huidige modellen een sterke oppervlakkige vaardigheid vertonen, maar moeite hebben met dieper grammaticaal en syntactisch redeneren. AraLingBench benadrukt een aanhoudende kloof tussen hoge scores op kennisgerichte benchmarks en echt taalkundig meesterschap, wat aantoont dat veel modellen slagen door memorisatie of patroonherkenning in plaats van authentiek begrip. Door fundamentele taalkundige vaardigheden te isoleren en te meten, biedt AraLingBench een diagnostisch raamwerk voor de ontwikkeling van Arabische LLM's. De volledige evaluatiecode is openbaar beschikbaar op GitHub.
English
We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.