Aya Model: Многоязычная языковая модель с открытым доступом, дообученная на инструкцияхAya Model: An Instruction Finetuned Open-Access Multilingual Language
Model
Недавние прорывы в области больших языковых моделей (LLMs) сосредоточены на нескольких языках с богатыми данными. Что требуется для расширения доступа к этим достижениям за пределы языков "первого класса"? Наша работа представляет Aya — массово многоязычную генеративную языковую модель, которая выполняет инструкции на 101 языке, более 50% из которых считаются малоресурсными. Aya превосходит модели mT0 и BLOOMZ в большинстве задач, охватывая вдвое больше языков. Мы представляем обширные новые наборы для оценки, которые расширяют современные стандарты многоязычного тестирования на 99 языков, включая дискриминативные и генеративные задачи, человеческую оценку и моделируемые показатели успеха, охватывающие как задачи с исключенными данными, так и производительность в рамках распределения. Кроме того, мы проводим детальные исследования оптимального состава смеси для тонкой настройки, обрезки данных, а также токсичности, предвзятости и безопасности наших моделей. Мы открываем исходные коды наших наборов инструкций и модели по адресу https://hf.co/CohereForAI/aya-101.