UI-Niveau Evaluatie van ALLaM 34B: Het Meten van een Arabisch-Gecentreerd Taalmodel via HUMAIN Chat
UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat
August 24, 2025
Auteurs: Omer Nacar
cs.AI
Samenvatting
Grote taalmodellen (LLM's) die voornamelijk zijn getraind op Engelstalige corpora, hebben vaak moeite om de linguïstische en culturele nuances van het Arabisch te vatten. Om deze kloof te dichten, heeft de Saudi Data and AI Authority (SDAIA) de ALLaM-familie van Arabisch-gerichte modellen geïntroduceerd. Het meest geavanceerde van deze modellen dat publiekelijk beschikbaar is, ALLaM-34B, werd vervolgens overgenomen door HUMAIN, die HUMAIN Chat ontwikkelde en implementeerde, een gesloten conversatiewebservice gebouwd op dit model. Dit artikel presenteert een uitgebreide en verfijnde UI-level evaluatie van ALLaM-34B. Met behulp van een promptpakket dat modern standaard Arabisch, vijf regionale dialecten, code-switching, feitelijke kennis, rekenkundig en temporeel redeneren, creatieve generatie en adversariale veiligheid omvat, verzamelden we 115 outputs (23 prompts maal 5 runs) en scoorden elk met drie toonaangevende LLM-beoordelaars (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). We berekenen categoriegemiddelden met 95\% betrouwbaarheidsintervallen, analyseren scoreverdelingen en visualiseren metrische warmtekaarten per dialect. De bijgewerkte analyse toont consistent hoge prestaties op generatie- en code-switching taken (beide gemiddeld 4.92/5), naast sterke resultaten in het omgaan met modern standaard Arabisch (4.74/5), solide redeneervaardigheid (4.64/5) en verbeterde dialectgetrouwheid (4.21/5). Veiligheidsgerelateerde prompts laten stabiele, betrouwbare prestaties zien van (4.54/5). Samengevat positioneren deze resultaten ALLaM-34B als een robuust en cultureel verankerd Arabisch LLM, dat zowel technische kracht als praktische gereedheid voor implementatie in de echte wereld demonstreert.
English
Large language models (LLMs) trained primarily on English corpora often
struggle to capture the linguistic and cultural nuances of Arabic. To address
this gap, the Saudi Data and AI Authority (SDAIA) introduced the ALLaM family
of Arabic-focused models. The most capable of these available to the public,
ALLaM-34B, was subsequently adopted by HUMAIN, who developed and deployed
HUMAIN Chat, a closed conversational web service built on this model. This
paper presents an expanded and refined UI-level evaluation of ALLaM-34B.
Using a prompt pack spanning modern standard Arabic, five regional dialects,
code-switching, factual knowledge, arithmetic and temporal reasoning, creative
generation, and adversarial safety, we collected 115 outputs (23 prompts times
5 runs) and scored each with three frontier LLM judges (GPT-5, Gemini 2.5 Pro,
Claude Sonnet-4). We compute category-level means with 95\% confidence
intervals, analyze score distributions, and visualize dialect-wise metric heat
maps. The updated analysis reveals consistently high performance on generation
and code-switching tasks (both averaging 4.92/5), alongside strong results in
MSA handling (4.74/5), solid reasoning ability (4.64/5), and improved dialect
fidelity (4.21/5). Safety-related prompts show stable, reliable performance of
(4.54/5). Taken together, these results position ALLaM-34B as a robust and
culturally grounded Arabic LLM, demonstrating both technical strength and
practical readiness for real-world deployment.