AraLingBench: Аннотированный экспертами эталонный набор данных для оценки лингвистических способностей крупных языковых моделей в арабском языке
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
November 18, 2025
Авторы: Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem
cs.AI
Аннотация
Мы представляем AraLingBench: полностью аннотированный экспертами эталонный набор данных для оценки арабской лингвистической компетенции крупных языковых моделей (LLM). Этот набор охватывает пять ключевых категорий: грамматику, морфологию, орфографию, понимание текста и синтаксис, включая 150 экспертно разработанных вопросов с множественным выбором, которые напрямую оценивают понимание структуры языка. Оценка 35 арабских и двуязычных LLM показывает, что современные модели демонстрируют высокий уровень поверхностного владения языком, но испытывают трудности с более глубоким грамматическим и синтаксическим анализом. AraLingBench подчеркивает устойчивый разрыв между высокими результатами на тестах, основанных на знаниях, и подлинным лингвистическим мастерством, показывая, что многие модели достигают успеха за счет запоминания или распознавания шаблонов, а не подлинного понимания. Изолируя и измеряя фундаментальные лингвистические навыки, AraLingBench предоставляет диагностическую основу для разработки арабских LLM. Полный код оценки доступен публично на GitHub.
English
We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.