AraLingBench: Un Benchmark Annotato da Umani per Valutare le Capacità Linguistiche Arabe dei Modelli Linguistici di Grande Scala
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
November 18, 2025
Autori: Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem
cs.AI
Abstract
Presentiamo AraLingBench: un benchmark completamente annotato da esseri umani per valutare la competenza linguistica araba dei modelli linguistici di grandi dimensioni (LLM). Il benchmark copre cinque categorie principali: grammatica, morfologia, ortografia, comprensione del testo e sintassi, attraverso 150 domande a scelta multipla progettate da esperti che valutano direttamente la comprensione strutturale della lingua. La valutazione di 35 LLM arabi e bilingui rivela che i modelli attuali dimostrano una forte competenza superficiale ma faticano con ragionamenti grammaticali e sintattici più profondi. AraLingBench evidenzia un divario persistente tra i punteggi elevati nei benchmark basati sulla conoscenza e la vera padronanza linguistica, mostrando che molti modelli riescono attraverso la memorizzazione o il riconoscimento di schemi piuttosto che una comprensione autentica. Isolando e misurando le abilità linguistiche fondamentali, AraLingBench fornisce un quadro diagnostico per lo sviluppo di LLM arabi. Il codice completo di valutazione è disponibile pubblicamente su GitHub.
English
We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.