Dynamischer Datensampler für den Transfer von Wissen zwischen Sprachen in großen Sprachmodellen
Dynamic data sampler for cross-language transfer learning in large language models
May 17, 2024
papers.authors: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben aufgrund ihrer breiten Anwendungsmöglichkeiten in der natürlichen Sprachverarbeitung (NLP) erhebliche Aufmerksamkeit erlangt. Das Training von LLMs für Sprachen außer Englisch stellt jedoch aufgrund der Schwierigkeiten bei der Beschaffung von großen Korpora und der erforderlichen Rechenressourcen bedeutende Herausforderungen dar. In diesem Papier schlagen wir ChatFlow vor, ein auf Cross-Language-Transfer basierendes LLM, um diesen Herausforderungen zu begegnen und große chinesische Sprachmodelle kostengünstig zu trainieren. Wir verwenden eine Mischung aus chinesischen, englischen und parallelen Korpora, um das LLaMA2-Modell kontinuierlich zu trainieren, mit dem Ziel, cross-sprachliche Repräsentationen auszurichten und den Wissenstransfer speziell auf das chinesische Sprachmodell zu erleichtern. Darüber hinaus verwenden wir einen dynamischen Datensampler, um das Modell schrittweise von unüberwachtem Pre-Training zu überwachtem Feintuning zu überführen. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Konvergenz des Modells beschleunigt und eine überlegene Leistung erzielt. Wir evaluieren ChatFlow anhand beliebter chinesischer und englischer Benchmarks, wobei die Ergebnisse darauf hindeuten, dass es andere chinesische Modelle übertrifft, die auf LLaMA-2-7B nachtrainiert wurden.
English
Large Language Models (LLMs) have gained significant attention in the field
of natural language processing (NLP) due to their wide range of applications.
However, training LLMs for languages other than English poses significant
challenges, due to the difficulty in acquiring large-scale corpus and the
requisite computing resources. In this paper, we propose ChatFlow, a
cross-language transfer-based LLM, to address these challenges and train large
Chinese language models in a cost-effective manner. We employ a mix of Chinese,
English, and parallel corpus to continuously train the LLaMA2 model, aiming to
align cross-language representations and facilitate the knowledge transfer
specifically to the Chinese language model. In addition, we use a dynamic data
sampler to progressively transition the model from unsupervised pre-training to
supervised fine-tuning. Experimental results demonstrate that our approach
accelerates model convergence and achieves superior performance. We evaluate
ChatFlow on popular Chinese and English benchmarks, the results indicate that
it outperforms other Chinese models post-trained on LLaMA-2-7B.