RedPajama: 대형 언어 모델을 훈련하기 위한 오픈 데이터셋RedPajama: an Open Dataset for Training Large Language Models
대형 언어 모델은 인공지능, 과학 및 사회 전반에서 점차 중요한 기술로 자리 잡고 있지만, 데이터셋 구성 및 필터링에 대한 최적 전략은 여전히 대부분 불분명합니다. 성능이 우수한 모델 중 많은 모델은 데이터셋 선별 및 모델 개발 과정에서 투명성이 부족하여 완전히 공개적인 언어 모델의 개발에 장애를 일으킵니다. 본 논문에서는 오픈 소스 언어 모델의 발전을 위해 해결해야 할 세 가지 핵심 데이터 관련 도전 과제를 확인합니다. 이는 (1) 데이터 선별 과정을 포함한 모델 개발의 투명성, (2) 대규모 고품질 데이터에 대한 접근, (3) 데이터셋 선별 및 분석을 위한 자료 및 메타데이터의 가용성을 포함합니다. 이러한 도전 과제를 해결하기 위해 LLaMA 훈련 데이터셋의 오픈 재현인 RedPajama-V1을 공개합니다. 더불어, 원시, 필터링되지 않은 텍스트 데이터와 품질 신호 및 메타데이터로 이루어진 대규모 웹 전용 데이터셋인 RedPajama-V2를 공개합니다. RedPajama 데이터셋은 다양한 도메인에 걸쳐 100조 개 이상의 토큰을 포함하며, 품질 신호를 통해 데이터 필터링을 용이하게 하여 다양한 새로운 데이터셋의 개발을 촉진하는 것을 목표로 합니다. 현재까지 이러한 데이터셋은 이미 Snowflake Arctic, Salesforce의 XGen 및 AI2의 OLMo와 같이 제품에서 사용되는 강력한 언어 모델의 훈련에 사용되었습니다. RedPajama의 품질에 대한 통찰력을 제공하기 위해 1.6B 매개변수까지 가진 디코더 전용 언어 모델을 사용한 일련의 분석 및 제거 연구를 제시합니다. 우리의 연구 결과는 웹 데이터의 품질 신호가 데이터의 고품질 하위 집합을 선별하는 데 효과적으로 활용될 수 있음을 보여주며, RedPajama가 투명하고 고품질의 언어 모델의 대규모 발전을 촉진할 수 있는 잠재력을 강조합니다.