Des lignes directrices à la pratique : Un nouveau paradigme pour l'évaluation des modèles de langage arabes
From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation
June 2, 2025
Auteurs: Serry Sibaee, Omer Nacar, Adel Ammar, Yasser Al-Habashi, Abdulrahman Al-Batati, Wadii Boulila
cs.AI
Résumé
Cet article aborde les lacunes critiques dans l'évaluation des modèles de langage arabes en établissant des directives théoriques complètes et en introduisant un nouveau cadre d'évaluation. Nous analysons d'abord les ensembles de données d'évaluation arabes existants, en identifiant des problèmes significatifs en matière de précision linguistique, d'alignement culturel et de rigueur méthodologique. Pour pallier ces limites dans les LLM, nous présentons l'Arabic Depth Mini Dataset (ADMD), une collection soigneusement sélectionnée de 490 questions complexes couvrant dix domaines majeurs (42 sous-domaines, voir Figure 1). En utilisant l'ADMD, nous évaluons cinq modèles de langage leaders : GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B et Qwen-Max. Nos résultats révèlent des variations significatives dans les performances des modèles selon les domaines, avec des défis particuliers dans les domaines nécessitant une compréhension culturelle approfondie et des connaissances spécialisées. Claude 3.5 Sonnet a démontré la plus grande précision globale à 30\%, montrant une force relative dans la théorie mathématique en arabe, la langue arabe et les domaines islamiques. Ce travail fournit à la fois des fondements théoriques et des insights pratiques pour améliorer l'évaluation des modèles de langage arabes, en mettant l'accent sur l'importance de la compétence culturelle aux côtés des capacités techniques.
English
This paper addresses critical gaps in Arabic language model evaluation by
establishing comprehensive theoretical guidelines and introducing a novel
evaluation framework. We first analyze existing Arabic evaluation datasets,
identifying significant issues in linguistic accuracy, cultural alignment, and
methodological rigor. To address these limitations in LLMs, we present the
Arabic Depth Mini Dataset (ADMD), a carefully curated collection of 490
challenging questions spanning ten major domains (42 sub-domains, see Figure 1.
Using ADMD, we evaluate five leading language models: GPT-4, Claude 3.5 Sonnet,
Gemini Flash 1.5, CommandR 100B, and Qwen-Max. Our results reveal significant
variations in model performance across different domains, with particular
challenges in areas requiring deep cultural understanding and specialized
knowledge. Claude 3.5 Sonnet demonstrated the highest overall accuracy at 30\%,
showing relative strength in mathematical theory in Arabic, Arabic language,
and islamic domains. This work provides both theoretical foundations and
practical insights for improving Arabic language model evaluation, emphasizing
the importance of cultural competence alongside technical capabilities.