ChatPaper.aiChatPaper

Aya Dataset: Een Open-Toegankelijke Collectie voor Meertalige Instructieafstemming

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

February 9, 2024
Auteurs: Shivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker
cs.AI

Samenvatting

Datasets vormen de basis voor veel doorbraken in moderne kunstmatige intelligentie. Veel recente prestaties op het gebied van natuurlijke taalverwerking (NLP) kunnen worden toegeschreven aan het finetunen van vooraf getrainde modellen op een diverse set taken, waardoor een groot taalmodel (LLM) in staat is om op instructies te reageren. Instructie-finetuning (IFT) vereist specifiek geconstrueerde en geannoteerde datasets. Echter, bestaande datasets zijn vrijwel allemaal in het Engels. In dit werk is ons primaire doel om de taalkloof te overbruggen door een door mensen samengestelde dataset voor instructievolging te bouwen die 65 talen omvat. We hebben samengewerkt met vloeiende sprekers van talen uit de hele wereld om natuurlijke voorbeelden van instructies en voltooiingen te verzamelen. Bovendien creëren we de meest uitgebreide meertalige collectie tot nu toe, bestaande uit 513 miljoen voorbeelden door het templaten en vertalen van bestaande datasets in 114 talen. In totaal dragen we vier belangrijke bronnen bij: we ontwikkelen en open-sourcen het Aya Annotation Platform, de Aya Dataset, de Aya Collection en de Aya Evaluation Suite. Het Aya-initiatief dient ook als een waardevolle casestudy in participatief onderzoek, waarbij medewerkers uit 119 landen betrokken zijn. We zien dit als een waardevol kader voor toekomstige onderzoekssamenwerkingen die gericht zijn op het overbruggen van hiaten in bronnen.
English
Datasets are foundational to many breakthroughs in modern artificial intelligence. Many recent achievements in the space of natural language processing (NLP) can be attributed to the finetuning of pre-trained models on a diverse set of tasks that enables a large language model (LLM) to respond to instructions. Instruction fine-tuning (IFT) requires specifically constructed and annotated datasets. However, existing datasets are almost all in the English language. In this work, our primary goal is to bridge the language gap by building a human-curated instruction-following dataset spanning 65 languages. We worked with fluent speakers of languages from around the world to collect natural instances of instructions and completions. Furthermore, we create the most extensive multilingual collection to date, comprising 513 million instances through templating and translating existing datasets across 114 languages. In total, we contribute four key resources: we develop and open-source the Aya Annotation Platform, the Aya Dataset, the Aya Collection, and the Aya Evaluation Suite. The Aya initiative also serves as a valuable case study in participatory research, involving collaborators from 119 countries. We see this as a valuable framework for future research collaborations that aim to bridge gaps in resources.
PDF561February 8, 2026