ChatPaper.aiChatPaper

UI-Level-Evaluation von ALLaM 34B: Messung eines arabisch-zentrierten LLM mittels HUMAIN-Chat

UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat

August 24, 2025
papers.authors: Omer Nacar
cs.AI

papers.abstract

Große Sprachmodelle (LLMs), die hauptsächlich auf englischen Korpora trainiert wurden, haben oft Schwierigkeiten, die linguistischen und kulturellen Nuancen des Arabischen zu erfassen. Um diese Lücke zu schließen, hat die Saudi Data and AI Authority (SDAIA) die ALLaM-Familie von arabisch-fokussierten Modellen eingeführt. Das leistungsfähigste dieser öffentlich verfügbaren Modelle, ALLaM-34B, wurde anschließend von HUMAIN übernommen, die HUMAIN Chat entwickelten und bereitstellten, einen geschlossenen konversationellen Webdienst, der auf diesem Modell basiert. Dieses Papier präsentiert eine erweiterte und verfeinerte UI-Ebene-Evaluierung von ALLaM-34B. Unter Verwendung eines Prompt-Pakets, das modernes Standardarabisch, fünf regionale Dialekte, Code-Switching, faktisches Wissen, arithmetisches und zeitliches Denken, kreative Generierung und adversariale Sicherheit abdeckt, sammelten wir 115 Ausgaben (23 Prompts mal 5 Durchläufe) und bewerteten jede mit drei führenden LLM-Bewertern (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Wir berechnen kategoriebezogene Mittelwerte mit 95\%-Konfidenzintervallen, analysieren die Bewertungsverteilungen und visualisieren dialektbezogene Metrik-Wärmekarten. Die aktualisierte Analyse zeigt durchweg hohe Leistung bei Generierungs- und Code-Switching-Aufgaben (beide im Durchschnitt 4,92/5), neben starken Ergebnissen in der Handhabung von MSA (4,74/5), soliden Denkfähigkeiten (4,64/5) und verbesserter Dialekttreue (4,21/5). Sicherheitsbezogene Prompts zeigen eine stabile, zuverlässige Leistung von (4,54/5). Zusammengenommen positionieren diese Ergebnisse ALLaM-34B als ein robustes und kulturell verankertes arabisches LLM, das sowohl technische Stärke als auch praktische Einsatzbereitschaft für die reale Welt demonstriert.
English
Large language models (LLMs) trained primarily on English corpora often struggle to capture the linguistic and cultural nuances of Arabic. To address this gap, the Saudi Data and AI Authority (SDAIA) introduced the ALLaM family of Arabic-focused models. The most capable of these available to the public, ALLaM-34B, was subsequently adopted by HUMAIN, who developed and deployed HUMAIN Chat, a closed conversational web service built on this model. This paper presents an expanded and refined UI-level evaluation of ALLaM-34B. Using a prompt pack spanning modern standard Arabic, five regional dialects, code-switching, factual knowledge, arithmetic and temporal reasoning, creative generation, and adversarial safety, we collected 115 outputs (23 prompts times 5 runs) and scored each with three frontier LLM judges (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). We compute category-level means with 95\% confidence intervals, analyze score distributions, and visualize dialect-wise metric heat maps. The updated analysis reveals consistently high performance on generation and code-switching tasks (both averaging 4.92/5), alongside strong results in MSA handling (4.74/5), solid reasoning ability (4.64/5), and improved dialect fidelity (4.21/5). Safety-related prompts show stable, reliable performance of (4.54/5). Taken together, these results position ALLaM-34B as a robust and culturally grounded Arabic LLM, demonstrating both technical strength and practical readiness for real-world deployment.
PDF62September 2, 2025