Aya-Datensatz: Eine offen zugängliche Sammlung für mehrsprachiges Instruction TuningAya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning
Datasets sind grundlegend für viele Durchbrüche in der modernen künstlichen Intelligenz. Viele der jüngsten Erfolge im Bereich der natürlichen Sprachverarbeitung (NLP) lassen sich auf das Feinabstimmen vortrainierter Modelle auf eine Vielzahl von Aufgaben zurückführen, wodurch ein großes Sprachmodell (LLM) in der Lage ist, auf Anweisungen zu reagieren. Die Feinabstimmung auf Anweisungen (Instruction Fine-Tuning, IFT) erfordert speziell konstruierte und annotierte Datensätze. Allerdings sind bestehende Datensätze fast ausschließlich in englischer Sprache verfasst. In dieser Arbeit besteht unser primäres Ziel darin, die Sprachlücke zu schließen, indem wir einen von Menschen kuratierten Datensatz zur Befolgung von Anweisungen erstellen, der 65 Sprachen umfasst. Wir haben mit fließenden Sprechern von Sprachen aus der ganzen Welt zusammengearbeitet, um natürliche Beispiele von Anweisungen und deren Ausführungen zu sammeln. Darüber hinaus erstellen wir die bisher umfangreichste mehrsprachige Sammlung, die durch das Templating und Übersetzen bestehender Datensätze über 114 Sprachen hinweg 513 Millionen Instanzen umfasst. Insgesamt tragen wir vier Schlüsselressourcen bei: Wir entwickeln und veröffentlichen die Aya Annotation Platform, den Aya Dataset, die Aya Collection und das Aya Evaluation Suite. Die Aya-Initiative dient auch als wertvolle Fallstudie in der partizipativen Forschung, an der Mitarbeiter aus 119 Ländern beteiligt sind. Wir sehen dies als ein wertvolles Rahmenwerk für zukünftige Forschungskooperationen, die darauf abzielen, Lücken in Ressourcen zu schließen.