Ayaデータセット:多言語命令チューニングのためのオープンアクセスコレクションAya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning
データセットは、現代の人工知能における多くのブレークスルーの基盤となっている。自然言語処理(NLP)分野における最近の成果の多くは、多様なタスクに対して事前学習済みモデルをファインチューニングすることで、大規模言語モデル(LLM)が指示に応答できるようになったことに起因している。指示ファインチューニング(IFT)には、特に構築され注釈が付けられたデータセットが必要である。しかし、既存のデータセットはほとんどが英語である。本研究の主な目的は、65言語にわたる人間によるキュレーションされた指示追従データセットを構築することで、言語間のギャップを埋めることである。世界中の言語に堪能な話者と協力し、自然な指示とその完了例を収集した。さらに、既存のデータセットをテンプレート化し、114言語に翻訳することで、これまでで最も広範な多言語コレクションを作成し、5億1300万のインスタンスを集めた。全体として、我々は4つの主要なリソースを提供する:Ayaアノテーションプラットフォーム、Ayaデータセット、Ayaコレクション、およびAya評価スイートを開発し、オープンソース化した。Ayaイニシアチブはまた、119か国からの協力者を巻き込んだ参加型研究の貴重な事例研究としても機能する。我々はこれを、リソースのギャップを埋めることを目指す将来の研究協力のための貴重なフレームワークと見なしている。