Набор данных Aya: Открытая коллекция для мультиязычной настройки инструкцийAya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning
Наборы данных являются основой многих прорывов в современном искусственном интеллекте. Многие последние достижения в области обработки естественного языка (NLP) можно объяснить тонкой настройкой предварительно обученных моделей на разнообразных задачах, что позволяет крупным языковым моделям (LLM) реагировать на инструкции. Тонкая настройка на инструкциях (Instruction Fine-Tuning, IFT) требует специально созданных и аннотированных наборов данных. Однако существующие наборы данных почти полностью представлены на английском языке. В данной работе наша основная цель — преодолеть языковой разрыв, создав аннотированный человеком набор данных для выполнения инструкций, охватывающий 65 языков. Мы сотрудничали с носителями языков со всего мира, чтобы собрать естественные примеры инструкций и их выполнения. Кроме того, мы создали наиболее обширную на сегодняшний день многоязычную коллекцию, включающую 513 миллионов примеров, путем шаблонизации и перевода существующих наборов данных на 114 языков. В общей сложности мы представляем четыре ключевых ресурса: разрабатываем и открываем доступ к платформе аннотирования Aya, набору данных Aya, коллекции Aya и набору для оценки Aya. Инициатива Aya также служит ценным примером участия в исследованиях, вовлекая сотрудников из 119 стран. Мы рассматриваем это как полезную основу для будущих исследовательских коллабораций, направленных на устранение пробелов в ресурсах.