ChatPaper.aiChatPaper

Muestreador dinámico de datos para aprendizaje por transferencia entre lenguajes en modelos de lenguaje a gran escala

Dynamic data sampler for cross-language transfer learning in large language models

May 17, 2024
Autores: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han captado una atención significativa en el campo del procesamiento del lenguaje natural (NLP) debido a su amplia gama de aplicaciones. Sin embargo, entrenar LLMs para idiomas distintos al inglés presenta desafíos considerables, principalmente por la dificultad de adquirir corpus a gran escala y los recursos computacionales necesarios. En este artículo, proponemos ChatFlow, un LLM basado en transferencia interlingüística, para abordar estos desafíos y entrenar modelos de lenguaje chino de gran escala de manera rentable. Utilizamos una combinación de corpus en chino, inglés y paralelos para entrenar continuamente el modelo LLaMA2, con el objetivo de alinear las representaciones interlingüísticas y facilitar la transferencia de conocimiento específicamente al modelo de lenguaje chino. Además, empleamos un muestreador dinámico de datos para transicionar progresivamente el modelo desde el preentrenamiento no supervisado hasta el ajuste fino supervisado. Los resultados experimentales demuestran que nuestro enfoque acelera la convergencia del modelo y logra un rendimiento superior. Evaluamos ChatFlow en benchmarks populares de chino e inglés, y los resultados indican que supera a otros modelos chinos ajustados posteriormente sobre LLaMA-2-7B.
English
Large Language Models (LLMs) have gained significant attention in the field of natural language processing (NLP) due to their wide range of applications. However, training LLMs for languages other than English poses significant challenges, due to the difficulty in acquiring large-scale corpus and the requisite computing resources. In this paper, we propose ChatFlow, a cross-language transfer-based LLM, to address these challenges and train large Chinese language models in a cost-effective manner. We employ a mix of Chinese, English, and parallel corpus to continuously train the LLaMA2 model, aiming to align cross-language representations and facilitate the knowledge transfer specifically to the Chinese language model. In addition, we use a dynamic data sampler to progressively transition the model from unsupervised pre-training to supervised fine-tuning. Experimental results demonstrate that our approach accelerates model convergence and achieves superior performance. We evaluate ChatFlow on popular Chinese and English benchmarks, the results indicate that it outperforms other Chinese models post-trained on LLaMA-2-7B.

Summary

AI-Generated Summary

PDF80December 15, 2024