BaichuanSEED: Condivisione del Potenziale della Raccolta Estensiva dei Dati e Deduplica tramite l'Introduzione di un Baseline Competitivo di un Grande Modello Linguistico.
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline
August 27, 2024
Autori: Guosheng Dong, Da Pan, Yiding Sun, Shusen Zhang, Zheng Liang, Xin Wu, Yanjun Shen, Fan Yang, Haoze Sun, Tianpeng Li, Mingan Lin, Jianhua Xu, Yufan Zhang, Xiaonan Nie, Lei Su, Bingning Wang, Wentao Zhang, Jiaxin Mao, Zenan Zhou, Weipeng Chen
cs.AI
Abstract
Le capacità generali dei Grandi Modelli Linguistici (LLM) dipendono fortemente dalla composizione e dalla selezione di ampi set di dati di preaddestramento, considerati segreti commerciali da diverse istituzioni. Per mitigare questo problema, apriamo i dettagli di un flusso di elaborazione dati universalmente applicabile e ne convalidiamo l'efficacia e il potenziale presentando un modello LLM competitivo di base. In particolare, il flusso di elaborazione dati consiste nella raccolta ampia per aumentare la scala e nel ricalcolo per migliorare la qualità. Successivamente preaddestriamo un modello BaichuanSEED da 7 miliardi di parametri con 3 trilioni di token elaborati dal nostro flusso senza alcuna ottimizzazione deliberata relativa al compito downstream, seguito da una fase di raffinamento supervisionato semplice ma efficace. BaichuanSEED dimostra coerenza e prevedibilità durante l'addestramento e raggiunge prestazioni comparabili su benchmark completi con diversi modelli linguistici avanzati commerciali di grandi dimensioni, come Qwen1.5 e Llama3. Conduciamo inoltre diversi esperimenti euristici per discutere il potenziale per ulteriori ottimizzazioni dei compiti downstream, come matematica e codifica.
English
The general capabilities of Large Language Models (LLM) highly rely on the
composition and selection on extensive pretraining datasets, treated as
commercial secrets by several institutions. To mitigate this issue, we
open-source the details of a universally applicable data processing pipeline
and validate its effectiveness and potential by introducing a competitive LLM
baseline. Specifically, the data processing pipeline consists of broad
collection to scale up and reweighting to improve quality. We then pretrain a
7B model BaichuanSEED with 3T tokens processed by our pipeline without any
deliberate downstream task-related optimization, followed by an easy but
effective supervised fine-tuning stage. BaichuanSEED demonstrates consistency
and predictability throughout training and achieves comparable performance on
comprehensive benchmarks with several commercial advanced large language
models, such as Qwen1.5 and Llama3. We also conduct several heuristic
experiments to discuss the potential for further optimization of downstream
tasks, such as mathematics and coding.