ChatPaper.aiChatPaper

Динамический сэмплер данных для переноса знаний между языками в больших языковых моделях

Dynamic data sampler for cross-language transfer learning in large language models

May 17, 2024
Авторы: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI

Аннотация

Большие языковые модели (LLM) привлекли значительное внимание в области обработки естественного языка (NLP) благодаря широкому спектру применений. Однако обучение LLM для языков, отличных от английского, представляет существенные трудности из-за сложностей в получении крупномасштабного корпуса и необходимых вычислительных ресурсов. В данной статье мы предлагаем ChatFlow - LLM на основе переноса между языками, чтобы решить эти проблемы и обучить крупные китайские языковые модели экономичным способом. Мы используем смесь китайского, английского и параллельного корпуса для непрерывного обучения модели LLaMA2 с целью выравнивания представлений между языками и облегчения передачи знаний специально для китайской языковой модели. Кроме того, мы используем динамический сэмплер данных для постепенного перехода модели от ненадзорного предварительного обучения к надзорной настройке. Экспериментальные результаты показывают, что наш подход ускоряет сходимость модели и достигает превосходных результатов. Мы оцениваем ChatFlow на популярных китайских и английских бенчмарках, результаты показывают, что он превосходит другие китайские модели, дообученные на LLaMA-2-7B.
English
Large Language Models (LLMs) have gained significant attention in the field of natural language processing (NLP) due to their wide range of applications. However, training LLMs for languages other than English poses significant challenges, due to the difficulty in acquiring large-scale corpus and the requisite computing resources. In this paper, we propose ChatFlow, a cross-language transfer-based LLM, to address these challenges and train large Chinese language models in a cost-effective manner. We employ a mix of Chinese, English, and parallel corpus to continuously train the LLaMA2 model, aiming to align cross-language representations and facilitate the knowledge transfer specifically to the Chinese language model. In addition, we use a dynamic data sampler to progressively transition the model from unsupervised pre-training to supervised fine-tuning. Experimental results demonstrate that our approach accelerates model convergence and achieves superior performance. We evaluate ChatFlow on popular Chinese and English benchmarks, the results indicate that it outperforms other Chinese models post-trained on LLaMA-2-7B.

Summary

AI-Generated Summary

PDF80December 15, 2024