Aya數據集:用於多語言指導的開放存取收集調整Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning
資料集是現代人工智慧許多突破的基礎。自然語言處理(NLP)領域的許多最新成就可歸因於對預先訓練模型進行微調,使大型語言模型(LLM)能夠回應指令的多樣任務集。指令微調(IFT)需要特別構建和標註的資料集。然而,現有的資料集幾乎都是以英語為主。在這項工作中,我們的主要目標是通過建立一個人工精選的指令遵循資料集,涵蓋65種語言,以彌合語言差距。我們與來自世界各地的母語使用者合作,收集指令和完成的自然實例。此外,我們通過模板化和翻譯現有資料集,跨越114種語言,創建迄今為止最廣泛的多語言收集,包括5.13億個實例。總共,我們貢獻了四個關鍵資源:我們開發並開源Aya標註平台、Aya資料集、Aya收集和Aya評估套件。Aya倡議也作為參與式研究的寶貴案例研究,涉及來自119個國家的合作者。我們認為這是未來研究合作的寶貴框架,旨在彌合資源差距。