AraLingBench: Ein von Menschen annotierter Benchmark zur Bewertung der arabischen linguistischen Fähigkeiten großer Sprachmodelle
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
November 18, 2025
papers.authors: Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem
cs.AI
papers.abstract
Wir präsentieren AraLingBench: einen vollständig von Menschen annotierten Benchmark zur Bewertung der arabischen linguistischen Kompetenz von großen Sprachmodellen (LLMs). Der Benchmark umfasst fünf Kernkategorien: Grammatik, Morphologie, Rechtschreibung, Leseverständnis und Syntax, anhand von 150 von Experten entworfenen Multiple-Choice-Fragen, die direkt das strukturelle Sprachverständnis bewerten. Die Auswertung von 35 arabischen und zweisprachigen LLMs zeigt, dass aktuelle Modelle eine starke oberflächliche Beherrschung aufweisen, jedoch mit tiefergehendem grammatikalischem und syntaktischem Verständnis kämpfen. AraLingBench verdeutlicht eine anhaltende Lücke zwischen hohen Punktzahlen in wissensbasierten Benchmarks und wahrer linguistischer Meisterschaft, indem er zeigt, dass viele Modelle durch Auswendiglernen oder Mustererkennung erfolgreich sind, anstatt durch authentisches Verständnis. Durch die Isolierung und Messung grundlegender linguistischer Fähigkeiten bietet AraLingBench ein diagnostisches Rahmenwerk für die Entwicklung arabischer LLMs. Der vollständige Evaluationscode ist öffentlich auf GitHub verfügbar.
English
We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.