ChatPaper.aiChatPaper

Dynamische gegevenssampler voor kruislinguaal transferleren in grote taalmodelen

Dynamic data sampler for cross-language transfer learning in large language models

May 17, 2024
Auteurs: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hebben aanzienlijke aandacht gekregen op het gebied van natuurlijke taalverwerking (NLP) vanwege hun brede scala aan toepassingen. Het trainen van LLM's voor talen anders dan Engels brengt echter aanzienlijke uitdagingen met zich mee, vanwege de moeilijkheid om grootschalige corpora en de benodigde rekenbronnen te verkrijgen. In dit artikel stellen we ChatFlow voor, een op cross-linguale transfer gebaseerd LLM, om deze uitdagingen aan te pakken en grote Chinese taalmodelen op een kosteneffectieve manier te trainen. We gebruiken een mix van Chinese, Engelse en parallelle corpora om het LLaMA2-model continu te trainen, met als doel cross-linguale representaties uit te lijnen en de kennisoverdracht specifiek naar het Chinese taalmodel te vergemakkelijken. Daarnaast gebruiken we een dynamische data sampler om het model geleidelijk over te laten gaan van onbewaakte voorafgaande training naar bewaakte fijnafstemming. Experimentele resultaten tonen aan dat onze aanpak de modelconvergentie versnelt en superieure prestaties bereikt. We evalueren ChatFlow op populaire Chinese en Engelse benchmarks, en de resultaten geven aan dat het andere Chinese modellen die zijn nageleerd op LLaMA-2-7B overtreft.
English
Large Language Models (LLMs) have gained significant attention in the field of natural language processing (NLP) due to their wide range of applications. However, training LLMs for languages other than English poses significant challenges, due to the difficulty in acquiring large-scale corpus and the requisite computing resources. In this paper, we propose ChatFlow, a cross-language transfer-based LLM, to address these challenges and train large Chinese language models in a cost-effective manner. We employ a mix of Chinese, English, and parallel corpus to continuously train the LLaMA2 model, aiming to align cross-language representations and facilitate the knowledge transfer specifically to the Chinese language model. In addition, we use a dynamic data sampler to progressively transition the model from unsupervised pre-training to supervised fine-tuning. Experimental results demonstrate that our approach accelerates model convergence and achieves superior performance. We evaluate ChatFlow on popular Chinese and English benchmarks, the results indicate that it outperforms other Chinese models post-trained on LLaMA-2-7B.
PDF80February 8, 2026