Evaluación a Nivel de Interfaz de Usuario de ALLaM 34B: Medición de un Modelo de Lenguaje Centrado en el Árabe mediante HUMAIN Chat
UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat
August 24, 2025
Autores: Omer Nacar
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) entrenados principalmente en corpus en inglés a menudo tienen dificultades para captar los matices lingüísticos y culturales del árabe. Para abordar esta brecha, la Autoridad Saudí de Datos e Inteligencia Artificial (SDAIA) introdujo la familia de modelos ALLaM, centrados en el árabe. El más capaz de estos disponible públicamente, ALLaM-34B, fue posteriormente adoptado por HUMAIN, quienes desarrollaron e implementaron HUMAIN Chat, un servicio web conversacional cerrado basado en este modelo. Este artículo presenta una evaluación ampliada y refinada a nivel de interfaz de usuario (UI) de ALLaM-34B. Utilizando un conjunto de indicaciones que abarca el árabe estándar moderno, cinco dialectos regionales, cambio de código, conocimiento factual, razonamiento aritmético y temporal, generación creativa y seguridad adversaria, recopilamos 115 salidas (23 indicaciones multiplicadas por 5 ejecuciones) y calificamos cada una con tres modelos de lenguaje de vanguardia como jueces (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Calculamos medias a nivel de categoría con intervalos de confianza del 95%, analizamos las distribuciones de puntuaciones y visualizamos mapas de calor de métricas por dialecto. El análisis actualizado revela un rendimiento consistentemente alto en tareas de generación y cambio de código (ambas con un promedio de 4.92/5), junto con resultados sólidos en el manejo del árabe estándar moderno (4.74/5), una capacidad de razonamiento robusta (4.64/5) y una fidelidad mejorada en dialectos (4.21/5). Las indicaciones relacionadas con la seguridad muestran un rendimiento estable y confiable (4.54/5). En conjunto, estos resultados posicionan a ALLaM-34B como un modelo de lenguaje árabe robusto y culturalmente fundamentado, demostrando tanto fortaleza técnica como preparación práctica para su implementación en el mundo real.
English
Large language models (LLMs) trained primarily on English corpora often
struggle to capture the linguistic and cultural nuances of Arabic. To address
this gap, the Saudi Data and AI Authority (SDAIA) introduced the ALLaM family
of Arabic-focused models. The most capable of these available to the public,
ALLaM-34B, was subsequently adopted by HUMAIN, who developed and deployed
HUMAIN Chat, a closed conversational web service built on this model. This
paper presents an expanded and refined UI-level evaluation of ALLaM-34B.
Using a prompt pack spanning modern standard Arabic, five regional dialects,
code-switching, factual knowledge, arithmetic and temporal reasoning, creative
generation, and adversarial safety, we collected 115 outputs (23 prompts times
5 runs) and scored each with three frontier LLM judges (GPT-5, Gemini 2.5 Pro,
Claude Sonnet-4). We compute category-level means with 95\% confidence
intervals, analyze score distributions, and visualize dialect-wise metric heat
maps. The updated analysis reveals consistently high performance on generation
and code-switching tasks (both averaging 4.92/5), alongside strong results in
MSA handling (4.74/5), solid reasoning ability (4.64/5), and improved dialect
fidelity (4.21/5). Safety-related prompts show stable, reliable performance of
(4.54/5). Taken together, these results position ALLaM-34B as a robust and
culturally grounded Arabic LLM, demonstrating both technical strength and
practical readiness for real-world deployment.