AraLingBench: Un punto de referencia anotado por humanos para evaluar las capacidades lingüísticas del árabe en modelos de lenguaje de gran escala
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
November 18, 2025
Autores: Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem
cs.AI
Resumen
Presentamos AraLingBench: un punto de referencia completamente anotado por humanos para evaluar la competencia lingüística en árabe de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Este punto de referencia abarca cinco categorías principales: gramática, morfología, ortografía, comprensión lectora y sintaxis, a través de 150 preguntas de opción múltiple diseñadas por expertos que evalúan directamente la comprensión estructural del lenguaje. La evaluación de 35 LLMs en árabe y bilingües revela que los modelos actuales demuestran un fuerte dominio superficial, pero presentan dificultades en el razonamiento gramatical y sintáctico más profundo. AraLingBench destaca una brecha persistente entre los puntajes altos en puntos de referencia basados en conocimiento y el verdadero dominio lingüístico, mostrando que muchos modelos tienen éxito a través de la memorización o el reconocimiento de patrones en lugar de una comprensión auténtica. Al aislar y medir habilidades lingüísticas fundamentales, AraLingBench proporciona un marco diagnóstico para el desarrollo de LLMs en árabe. El código completo de evaluación está disponible públicamente en GitHub.
English
We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.