Aya 데이터셋: 다국어 명령어 튜닝을 위한 오픈 액세스 컬렉션Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning
데이터셋은 현대 인공지능의 많은 혁신적 발전의 기반이 됩니다. 최근 자연어 처리(NLP) 분야에서의 성과들은 대부분 사전 훈련된 모델을 다양한 작업에 맞게 미세 조정함으로써 대형 언어 모델(LLM)이 명령에 응답할 수 있도록 한 데 기인합니다. 명령어 미세 조정(IFT)은 특별히 구성되고 주석이 달린 데이터셋을 필요로 합니다. 그러나 기존 데이터셋은 거의 모두 영어로 되어 있습니다. 본 연구의 주요 목표는 65개 언어에 걸친 인간이 직접 주석을 단 명령어 수행 데이터셋을 구축하여 언어 간 격차를 해소하는 것입니다. 우리는 전 세계의 유창한 언어 사용자들과 협력하여 자연스러운 명령어와 완성 예시를 수집했습니다. 더 나아가, 기존 데이터셋을 템플릿화하고 114개 언어로 번역하여 5억 1,300만 개의 예시로 구성된 가장 방대한 다국어 컬렉션을 생성했습니다. 총 네 가지 주요 리소스를 제공합니다: Aya 주석 플랫폼, Aya 데이터셋, Aya 컬렉션, 그리고 Aya 평가 도구를 개발하고 오픈소스로 공개합니다. Aya 프로젝트는 또한 119개국에서 온 협력자들이 참여한 참여형 연구의 가치 있는 사례 연구로도 기능합니다. 우리는 이를 자원 격차를 해소하고자 하는 미래 연구 협력을 위한 유용한 프레임워크로 보고 있습니다.