Échantillonneur dynamique de données pour l'apprentissage par transfert interlangue dans les grands modèles de langage
Dynamic data sampler for cross-language transfer learning in large language models
May 17, 2024
Auteurs: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont suscité un intérêt considérable dans le domaine du traitement automatique du langage naturel (TALN) en raison de leur large éventail d'applications. Cependant, l'entraînement de LLMs pour des langues autres que l'anglais présente des défis importants, notamment en raison de la difficulté à acquérir des corpus à grande échelle et les ressources informatiques nécessaires. Dans cet article, nous proposons ChatFlow, un LLM basé sur le transfert interlangue, pour relever ces défis et entraîner des modèles de langage chinois de grande taille de manière rentable. Nous utilisons un mélange de corpus chinois, anglais et parallèles pour entraîner continuellement le modèle LLaMA2, dans le but d'aligner les représentations interlangues et de faciliter le transfert de connaissances spécifiquement vers le modèle de langage chinois. De plus, nous employons un échantillonneur de données dynamique pour faire progressivement passer le modèle d'un pré-entraînement non supervisé à un affinage supervisé. Les résultats expérimentaux montrent que notre approche accélère la convergence du modèle et obtient des performances supérieures. Nous évaluons ChatFlow sur des benchmarks populaires en chinois et en anglais, et les résultats indiquent qu'il surpasse d'autres modèles chinois post-entraînés sur LLaMA-2-7B.
English
Large Language Models (LLMs) have gained significant attention in the field
of natural language processing (NLP) due to their wide range of applications.
However, training LLMs for languages other than English poses significant
challenges, due to the difficulty in acquiring large-scale corpus and the
requisite computing resources. In this paper, we propose ChatFlow, a
cross-language transfer-based LLM, to address these challenges and train large
Chinese language models in a cost-effective manner. We employ a mix of Chinese,
English, and parallel corpus to continuously train the LLaMA2 model, aiming to
align cross-language representations and facilitate the knowledge transfer
specifically to the Chinese language model. In addition, we use a dynamic data
sampler to progressively transition the model from unsupervised pre-training to
supervised fine-tuning. Experimental results demonstrate that our approach
accelerates model convergence and achieves superior performance. We evaluate
ChatFlow on popular Chinese and English benchmarks, the results indicate that
it outperforms other Chinese models post-trained on LLaMA-2-7B.Summary
AI-Generated Summary