Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем AraLingBench: полностью аннотированный экспертами эталонный набор данных для оценки арабской лингвистической компетенции крупных языковых моделей (LLM). Этот набор охватывает пять ключевых категорий: грамматику, морфологию, орфографию, понимание текста и синтаксис, включая 150 экспертно разработанных вопросов с множественным выбором, которые напрямую оценивают понимание структуры языка. Оценка 35 арабских и двуязычных LLM показывает, что современные модели демонстрируют высокий уровень поверхностного владения языком, но испытывают трудности с более глубоким грамматическим и синтаксическим анализом. AraLingBench подчеркивает устойчивый разрыв между высокими результатами на тестах, основанных на знаниях, и подлинным лингвистическим мастерством, показывая, что многие модели достигают успеха за счет запоминания или распознавания шаблонов, а не подлинного понимания. Изолируя и измеряя фундаментальные лингвистические навыки, AraLingBench предоставляет диагностическую основу для разработки арабских LLM. Полный код оценки доступен публично на GitHub.