ChatPaper.aiChatPaper

AraLingBench : Un Benchmark Annoté par des Humains pour Évaluer les Capacités Linguistiques des Grands Modèles de Langage en Arabe

AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

November 18, 2025
papers.authors: Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem
cs.AI

papers.abstract

Nous présentons AraLingBench : un benchmark entièrement annoté par des humains pour évaluer la compétence linguistique en arabe des grands modèles de langage (LLM). Ce benchmark couvre cinq catégories principales : grammaire, morphologie, orthographe, compréhension écrite et syntaxe, à travers 150 questions à choix multiples conçues par des experts qui évaluent directement la compréhension structurelle de la langue. L’évaluation de 35 LLM arabes et bilingues révèle que les modèles actuels démontrent une forte maîtrise superficielle mais peinent à raisonner de manière approfondie sur les aspects grammaticaux et syntaxiques. AraLingBench met en lumière un écart persistant entre les scores élevés sur les benchmarks basés sur la connaissance et une véritable maîtrise linguistique, montrant que de nombreux modèles réussissent grâce à la mémorisation ou à la reconnaissance de motifs plutôt qu’à une compréhension authentique. En isolant et en mesurant les compétences linguistiques fondamentales, AraLingBench fournit un cadre diagnostique pour le développement des LLM arabes. Le code complet de l’évaluation est disponible publiquement sur GitHub.
English
We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.
PDF581November 20, 2025