ChatPaper.aiChatPaper

Des lignes directrices à la pratique : Un nouveau paradigme pour l'évaluation des modèles de langage arabes

From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation

June 2, 2025
Auteurs: Serry Sibaee, Omer Nacar, Adel Ammar, Yasser Al-Habashi, Abdulrahman Al-Batati, Wadii Boulila
cs.AI

Résumé

Cet article aborde les lacunes critiques dans l'évaluation des modèles de langage arabes en établissant des directives théoriques complètes et en introduisant un nouveau cadre d'évaluation. Nous analysons d'abord les ensembles de données d'évaluation arabes existants, en identifiant des problèmes significatifs en matière de précision linguistique, d'alignement culturel et de rigueur méthodologique. Pour pallier ces limites dans les LLM, nous présentons l'Arabic Depth Mini Dataset (ADMD), une collection soigneusement sélectionnée de 490 questions complexes couvrant dix domaines majeurs (42 sous-domaines, voir Figure 1). En utilisant l'ADMD, nous évaluons cinq modèles de langage leaders : GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B et Qwen-Max. Nos résultats révèlent des variations significatives dans les performances des modèles selon les domaines, avec des défis particuliers dans les domaines nécessitant une compréhension culturelle approfondie et des connaissances spécialisées. Claude 3.5 Sonnet a démontré la plus grande précision globale à 30\%, montrant une force relative dans la théorie mathématique en arabe, la langue arabe et les domaines islamiques. Ce travail fournit à la fois des fondements théoriques et des insights pratiques pour améliorer l'évaluation des modèles de langage arabes, en mettant l'accent sur l'importance de la compétence culturelle aux côtés des capacités techniques.
English
This paper addresses critical gaps in Arabic language model evaluation by establishing comprehensive theoretical guidelines and introducing a novel evaluation framework. We first analyze existing Arabic evaluation datasets, identifying significant issues in linguistic accuracy, cultural alignment, and methodological rigor. To address these limitations in LLMs, we present the Arabic Depth Mini Dataset (ADMD), a carefully curated collection of 490 challenging questions spanning ten major domains (42 sub-domains, see Figure 1. Using ADMD, we evaluate five leading language models: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B, and Qwen-Max. Our results reveal significant variations in model performance across different domains, with particular challenges in areas requiring deep cultural understanding and specialized knowledge. Claude 3.5 Sonnet demonstrated the highest overall accuracy at 30\%, showing relative strength in mathematical theory in Arabic, Arabic language, and islamic domains. This work provides both theoretical foundations and practical insights for improving Arabic language model evaluation, emphasizing the importance of cultural competence alongside technical capabilities.
PDF43June 3, 2025