ChatPaper.aiChatPaper

Évaluation au niveau de l'interface utilisateur d'ALLaM 34B : Mesure d'un modèle de langage centré sur l'arabe via HUMAIN Chat

UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat

August 24, 2025
papers.authors: Omer Nacar
cs.AI

papers.abstract

Les grands modèles de langage (LLM) principalement entraînés sur des corpus anglais éprouvent souvent des difficultés à capturer les nuances linguistiques et culturelles de l'arabe. Pour combler cette lacune, l'Autorité saoudienne des données et de l'intelligence artificielle (SDAIA) a introduit la famille de modèles ALLaM, centrée sur l'arabe. Le plus performant de ces modèles accessible au public, ALLaM-34B, a ensuite été adopté par HUMAIN, qui a développé et déployé HUMAIN Chat, un service de conversation web fermé basé sur ce modèle. Cet article présente une évaluation élargie et affinée au niveau de l'interface utilisateur d'ALLaM-34B. En utilisant un ensemble de prompts couvrant l'arabe standard moderne, cinq dialectes régionaux, l'alternance codique, les connaissances factuelles, le raisonnement arithmétique et temporel, la génération créative et la sécurité adversarial, nous avons collecté 115 sorties (23 prompts multipliés par 5 exécutions) et avons noté chacune avec trois juges LLM de pointe (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Nous calculons les moyennes par catégorie avec des intervalles de confiance à 95 %, analysons les distributions des scores et visualisons des cartes thermiques des métriques par dialecte. L'analyse mise à jour révèle une performance constamment élevée dans les tâches de génération et d'alternance codique (toutes deux avec une moyenne de 4,92/5), ainsi que des résultats solides dans la gestion de l'arabe standard moderne (4,74/5), une capacité de raisonnement robuste (4,64/5) et une fidélité dialectale améliorée (4,21/5). Les prompts liés à la sécurité montrent une performance stable et fiable de (4,54/5). Pris ensemble, ces résultats positionnent ALLaM-34B comme un LLM arabe robuste et ancré culturellement, démontrant à la fois une force technique et une préparation pratique pour un déploiement dans le monde réel.
English
Large language models (LLMs) trained primarily on English corpora often struggle to capture the linguistic and cultural nuances of Arabic. To address this gap, the Saudi Data and AI Authority (SDAIA) introduced the ALLaM family of Arabic-focused models. The most capable of these available to the public, ALLaM-34B, was subsequently adopted by HUMAIN, who developed and deployed HUMAIN Chat, a closed conversational web service built on this model. This paper presents an expanded and refined UI-level evaluation of ALLaM-34B. Using a prompt pack spanning modern standard Arabic, five regional dialects, code-switching, factual knowledge, arithmetic and temporal reasoning, creative generation, and adversarial safety, we collected 115 outputs (23 prompts times 5 runs) and scored each with three frontier LLM judges (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). We compute category-level means with 95\% confidence intervals, analyze score distributions, and visualize dialect-wise metric heat maps. The updated analysis reveals consistently high performance on generation and code-switching tasks (both averaging 4.92/5), alongside strong results in MSA handling (4.74/5), solid reasoning ability (4.64/5), and improved dialect fidelity (4.21/5). Safety-related prompts show stable, reliable performance of (4.54/5). Taken together, these results position ALLaM-34B as a robust and culturally grounded Arabic LLM, demonstrating both technical strength and practical readiness for real-world deployment.
PDF62September 2, 2025