Avaliação em Nível de Interface de Usuário do ALLaM 34B: Medindo um Modelo de Linguagem de Grande Escala Centrado no Árabe por meio do Chat HUMAIN
UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat
August 24, 2025
Autores: Omer Nacar
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) treinados principalmente em corpora em inglês frequentemente têm dificuldade em captar as nuances linguísticas e culturais do árabe. Para abordar essa lacuna, a Autoridade Saudita de Dados e IA (SDAIA) introduziu a família ALLaM de modelos focados no árabe. O mais capaz desses disponível ao público, o ALLaM-34B, foi posteriormente adotado pela HUMAIN, que desenvolveu e implantou o HUMAIN Chat, um serviço web conversacional fechado construído sobre esse modelo. Este artigo apresenta uma avaliação expandida e refinada em nível de interface do usuário (UI) do ALLaM-34B. Utilizando um conjunto de prompts que abrangem o árabe padrão moderno, cinco dialetos regionais, alternância de código, conhecimento factual, raciocínio aritmético e temporal, geração criativa e segurança adversarial, coletamos 115 saídas (23 prompts vezes 5 execuções) e pontuamos cada uma com três juízes de LLM de ponta (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Calculamos médias em nível de categoria com intervalos de confiança de 95%, analisamos distribuições de pontuação e visualizamos mapas de calor de métricas por dialeto. A análise atualizada revela um desempenho consistentemente alto em tarefas de geração e alternância de código (ambas com média de 4,92/5), juntamente com resultados fortes no tratamento do árabe padrão moderno (4,74/5), capacidade sólida de raciocínio (4,64/5) e fidelidade aprimorada aos dialetos (4,21/5). Prompts relacionados à segurança mostram um desempenho estável e confiável de (4,54/5). Em conjunto, esses resultados posicionam o ALLaM-34B como um LLM árabe robusto e culturalmente fundamentado, demonstrando tanto força técnica quanto prontidão prática para implantação no mundo real.
English
Large language models (LLMs) trained primarily on English corpora often
struggle to capture the linguistic and cultural nuances of Arabic. To address
this gap, the Saudi Data and AI Authority (SDAIA) introduced the ALLaM family
of Arabic-focused models. The most capable of these available to the public,
ALLaM-34B, was subsequently adopted by HUMAIN, who developed and deployed
HUMAIN Chat, a closed conversational web service built on this model. This
paper presents an expanded and refined UI-level evaluation of ALLaM-34B.
Using a prompt pack spanning modern standard Arabic, five regional dialects,
code-switching, factual knowledge, arithmetic and temporal reasoning, creative
generation, and adversarial safety, we collected 115 outputs (23 prompts times
5 runs) and scored each with three frontier LLM judges (GPT-5, Gemini 2.5 Pro,
Claude Sonnet-4). We compute category-level means with 95\% confidence
intervals, analyze score distributions, and visualize dialect-wise metric heat
maps. The updated analysis reveals consistently high performance on generation
and code-switching tasks (both averaging 4.92/5), alongside strong results in
MSA handling (4.74/5), solid reasoning ability (4.64/5), and improved dialect
fidelity (4.21/5). Safety-related prompts show stable, reliable performance of
(4.54/5). Taken together, these results position ALLaM-34B as a robust and
culturally grounded Arabic LLM, demonstrating both technical strength and
practical readiness for real-world deployment.