Aya数据集:用于多语言指导的开放获取集合
调整Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning
数据集是现代人工智能许多突破的基础。自然语言处理领域的许多最新成就归功于在多样化任务集上微调预训练模型,使大型语言模型(LLM)能够响应指令。指令微调(IFT)需要专门构建和注释的数据集。然而,现有数据集几乎都是以英语为主。在这项工作中,我们的主要目标是通过构建一个跨越65种语言的人工筛选的指令遵循数据集来弥合语言差距。我们与世界各地讲流利语言的人合作,收集指令和完成的自然实例。此外,我们通过模板化和翻译现有数据集,创建迄今为止最广泛的多语言集合,涵盖114种语言,共包括5.13亿个实例。总体上,我们提供了四个关键资源:我们开发并开源Aya注释平台、Aya数据集、Aya收集和Aya评估套件。Aya倡议还作为一个有价值的参与性研究案例研究,涉及来自119个国家的合作者。我们认为这是未来研究合作的有价值框架,旨在弥合资源方面的差距。