Valutazione a Livello UI di ALLaM 34B: Misurazione di un LLM Centrato sull'Arabo tramite HUMAIN Chat
UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat
August 24, 2025
Autori: Omer Nacar
cs.AI
Abstract
I grandi modelli linguistici (LLM) addestrati principalmente su corpora in inglese spesso faticano a cogliere le sfumature linguistiche e culturali dell'arabo. Per colmare questa lacuna, l'Autorità Saudita per i Dati e l'Intelligenza Artificiale (SDAIA) ha introdotto la famiglia di modelli ALLaM, focalizzata sull'arabo. Il più capace tra questi disponibile al pubblico, ALLaM-34B, è stato successivamente adottato da HUMAIN, che ha sviluppato e implementato HUMAIN Chat, un servizio web conversazionale chiuso basato su questo modello. Questo articolo presenta una valutazione ampliata e raffinata a livello di interfaccia utente (UI) di ALLaM-34B. Utilizzando un pacchetto di prompt che copre l'arabo standard moderno, cinque dialetti regionali, il code-switching, la conoscenza fattuale, il ragionamento aritmetico e temporale, la generazione creativa e la sicurezza avversaria, abbiamo raccolto 115 output (23 prompt per 5 esecuzioni) e li abbiamo valutati con tre giudici LLM all'avanguardia (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Calcoliamo le medie a livello di categoria con intervalli di confidenza del 95%, analizziamo le distribuzioni dei punteggi e visualizziamo mappe di calore metriche per dialetto. L'analisi aggiornata riviede prestazioni costantemente elevate nei compiti di generazione e code-switching (entrambi con una media di 4,92/5), insieme a risultati solidi nella gestione dell'arabo standard moderno (4,74/5), una solida capacità di ragionamento (4,64/5) e una migliore fedeltà dialettale (4,21/5). I prompt relativi alla sicurezza mostrano prestazioni stabili e affidabili (4,54/5). Nel complesso, questi risultati posizionano ALLaM-34B come un robusto e culturalmente radicato LLM per l'arabo, dimostrando sia forza tecnica che prontezza pratica per il dispiegamento nel mondo reale.
English
Large language models (LLMs) trained primarily on English corpora often
struggle to capture the linguistic and cultural nuances of Arabic. To address
this gap, the Saudi Data and AI Authority (SDAIA) introduced the ALLaM family
of Arabic-focused models. The most capable of these available to the public,
ALLaM-34B, was subsequently adopted by HUMAIN, who developed and deployed
HUMAIN Chat, a closed conversational web service built on this model. This
paper presents an expanded and refined UI-level evaluation of ALLaM-34B.
Using a prompt pack spanning modern standard Arabic, five regional dialects,
code-switching, factual knowledge, arithmetic and temporal reasoning, creative
generation, and adversarial safety, we collected 115 outputs (23 prompts times
5 runs) and scored each with three frontier LLM judges (GPT-5, Gemini 2.5 Pro,
Claude Sonnet-4). We compute category-level means with 95\% confidence
intervals, analyze score distributions, and visualize dialect-wise metric heat
maps. The updated analysis reveals consistently high performance on generation
and code-switching tasks (both averaging 4.92/5), alongside strong results in
MSA handling (4.74/5), solid reasoning ability (4.64/5), and improved dialect
fidelity (4.21/5). Safety-related prompts show stable, reliable performance of
(4.54/5). Taken together, these results position ALLaM-34B as a robust and
culturally grounded Arabic LLM, demonstrating both technical strength and
practical readiness for real-world deployment.