Оценка ALLaM 34B на уровне пользовательского интерфейса: измерение арабоцентричной языковой модели через чат HUMAIN
UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat
August 24, 2025
Авторы: Omer Nacar
cs.AI
Аннотация
Крупные языковые модели (LLM), обученные преимущественно на англоязычных корпусах, часто испытывают трудности с улавливанием лингвистических и культурных нюансов арабского языка. Для устранения этого пробела Управление по данным и искусственному интеллекту Саудовской Аравии (SDAIA) представило семейство моделей ALLaM, ориентированных на арабский язык. Наиболее мощная из доступных публично моделей, ALLaM-34B, была впоследствии адаптирована компанией HUMAIN, которая разработала и внедрила HUMAIN Chat — закрытый сервис для ведения диалогов, построенный на этой модели. В данной статье представлено расширенное и уточненное исследование на уровне пользовательского интерфейса для ALLaM-34B. Используя набор промптов, охватывающих современный стандартный арабский язык, пять региональных диалектов, код-свитчинг, фактические знания, арифметические и временные рассуждения, креативное генерирование и устойчивость к враждебным запросам, мы собрали 115 ответов (23 промпта по 5 запусков) и оценили каждый с помощью трех передовых LLM-судей (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Мы вычислили средние значения по категориям с 95%-ными доверительными интервалами, проанализировали распределение оценок и визуализировали тепловые карты метрик для диалектов. Обновленный анализ выявил стабильно высокую производительность в задачах генерации и код-свитчинга (средние оценки 4,92/5), наряду с сильными результатами в обработке современного стандартного арабского языка (4,74/5), устойчивыми способностями к рассуждению (4,64/5) и улучшенной точностью в воспроизведении диалектов (4,21/5). Промпты, связанные с безопасностью, демонстрируют стабильную и надежную производительность (4,54/5). В совокупности эти результаты позиционируют ALLaM-34B как надежную и культурно адаптированную арабскую языковую модель, демонстрирующую как техническую мощь, так и практическую готовность к реальному внедрению.
English
Large language models (LLMs) trained primarily on English corpora often
struggle to capture the linguistic and cultural nuances of Arabic. To address
this gap, the Saudi Data and AI Authority (SDAIA) introduced the ALLaM family
of Arabic-focused models. The most capable of these available to the public,
ALLaM-34B, was subsequently adopted by HUMAIN, who developed and deployed
HUMAIN Chat, a closed conversational web service built on this model. This
paper presents an expanded and refined UI-level evaluation of ALLaM-34B.
Using a prompt pack spanning modern standard Arabic, five regional dialects,
code-switching, factual knowledge, arithmetic and temporal reasoning, creative
generation, and adversarial safety, we collected 115 outputs (23 prompts times
5 runs) and scored each with three frontier LLM judges (GPT-5, Gemini 2.5 Pro,
Claude Sonnet-4). We compute category-level means with 95\% confidence
intervals, analyze score distributions, and visualize dialect-wise metric heat
maps. The updated analysis reveals consistently high performance on generation
and code-switching tasks (both averaging 4.92/5), alongside strong results in
MSA handling (4.74/5), solid reasoning ability (4.64/5), and improved dialect
fidelity (4.21/5). Safety-related prompts show stable, reliable performance of
(4.54/5). Taken together, these results position ALLaM-34B as a robust and
culturally grounded Arabic LLM, demonstrating both technical strength and
practical readiness for real-world deployment.