BaichuanSEED: 경쟁력 있는 대형 언어 모델 기준 도입을 통해 광범위한 데이터 수집 및 중복 제거의 잠재력 공유
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline
August 27, 2024
저자: Guosheng Dong, Da Pan, Yiding Sun, Shusen Zhang, Zheng Liang, Xin Wu, Yanjun Shen, Fan Yang, Haoze Sun, Tianpeng Li, Mingan Lin, Jianhua Xu, Yufan Zhang, Xiaonan Nie, Lei Su, Bingning Wang, Wentao Zhang, Jiaxin Mao, Zenan Zhou, Weipeng Chen
cs.AI
초록
대형 언어 모델 (LLM)의 일반적인 능력은 주로 광범위한 사전 훈련 데이터셋의 구성 및 선택에 의존하며, 이는 여러 기관에서 상업적 비밀로 취급됩니다. 이 문제를 완화하기 위해 우리는 보편적으로 적용 가능한 데이터 처리 파이프라인의 세부 정보를 오픈 소스로 제공하고, 경쟁력 있는 LLM 기준선을 소개함으로써 그 효과와 잠재력을 검증합니다. 구체적으로, 데이터 처리 파이프라인은 광범위한 수집에서 확장 및 가중치 조정을 통해 품질을 향상시키는 것으로 구성됩니다. 그런 다음, 우리는 어떠한 고의적인 하류 작업 관련 최적화 없이 우리의 파이프라인을 통해 처리된 3조 토큰을 가진 7B 모델 BaichuanSEED를 사전 훈련하고, 이어서 간단하지만 효과적인 지도형 미세 조정 단계를 거칩니다. BaichuanSEED는 훈련 과정 전반에 걸쳐 일관성과 예측 가능성을 보여주며, Qwen1.5 및 Llama3와 같은 여러 상용 고급 대형 언어 모델과 종합적인 벤치마크에서 비슷한 성능을 달성합니다. 또한 수학 및 코딩과 같은 하류 작업의 추가 최적화 가능성에 대해 논의하기 위해 여러 휴리스틱 실험을 수행합니다.
English
The general capabilities of Large Language Models (LLM) highly rely on the
composition and selection on extensive pretraining datasets, treated as
commercial secrets by several institutions. To mitigate this issue, we
open-source the details of a universally applicable data processing pipeline
and validate its effectiveness and potential by introducing a competitive LLM
baseline. Specifically, the data processing pipeline consists of broad
collection to scale up and reweighting to improve quality. We then pretrain a
7B model BaichuanSEED with 3T tokens processed by our pipeline without any
deliberate downstream task-related optimization, followed by an easy but
effective supervised fine-tuning stage. BaichuanSEED demonstrates consistency
and predictability throughout training and achieves comparable performance on
comprehensive benchmarks with several commercial advanced large language
models, such as Qwen1.5 and Llama3. We also conduct several heuristic
experiments to discuss the potential for further optimization of downstream
tasks, such as mathematics and coding.Summary
AI-Generated Summary