ChatPaper.aiChatPaper

Échantillonneur dynamique de données pour l'apprentissage par transfert interlangue dans les grands modèles de langage

Dynamic data sampler for cross-language transfer learning in large language models

May 17, 2024
Auteurs: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) ont suscité un intérêt considérable dans le domaine du traitement automatique du langage naturel (TALN) en raison de leur large éventail d'applications. Cependant, l'entraînement de LLMs pour des langues autres que l'anglais présente des défis importants, notamment en raison de la difficulté à acquérir des corpus à grande échelle et les ressources informatiques nécessaires. Dans cet article, nous proposons ChatFlow, un LLM basé sur le transfert interlangue, pour relever ces défis et entraîner des modèles de langage chinois de grande taille de manière rentable. Nous utilisons un mélange de corpus chinois, anglais et parallèles pour entraîner continuellement le modèle LLaMA2, dans le but d'aligner les représentations interlangues et de faciliter le transfert de connaissances spécifiquement vers le modèle de langage chinois. De plus, nous employons un échantillonneur de données dynamique pour faire progressivement passer le modèle d'un pré-entraînement non supervisé à un affinage supervisé. Les résultats expérimentaux montrent que notre approche accélère la convergence du modèle et obtient des performances supérieures. Nous évaluons ChatFlow sur des benchmarks populaires en chinois et en anglais, et les résultats indiquent qu'il surpasse d'autres modèles chinois post-entraînés sur LLaMA-2-7B.
English
Large Language Models (LLMs) have gained significant attention in the field of natural language processing (NLP) due to their wide range of applications. However, training LLMs for languages other than English poses significant challenges, due to the difficulty in acquiring large-scale corpus and the requisite computing resources. In this paper, we propose ChatFlow, a cross-language transfer-based LLM, to address these challenges and train large Chinese language models in a cost-effective manner. We employ a mix of Chinese, English, and parallel corpus to continuously train the LLaMA2 model, aiming to align cross-language representations and facilitate the knowledge transfer specifically to the Chinese language model. In addition, we use a dynamic data sampler to progressively transition the model from unsupervised pre-training to supervised fine-tuning. Experimental results demonstrate that our approach accelerates model convergence and achieves superior performance. We evaluate ChatFlow on popular Chinese and English benchmarks, the results indicate that it outperforms other Chinese models post-trained on LLaMA-2-7B.

Summary

AI-Generated Summary

PDF80December 15, 2024