SambaLingo: Обучение большим языковым моделям новым языкам
SambaLingo: Teaching Large Language Models New Languages
April 8, 2024
Авторы: Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker
cs.AI
Аннотация
Несмотря на широкое распространение LLMs, остается существенный разрыв в их возможностях и доступности на различных языках. Один из подходов к решению этих проблем заключается в том, чтобы взять существующую предварительно обученную LLM и продолжить обучение на новых языках. Хотя ранее были проведены эксперименты по адаптации языка, многие вопросы о лучших практиках и методологии остались нерешенными. В данной статье мы представляем всестороннее исследование адаптации LLMs под новые языки. Наше исследование охватывает ключевые компоненты этого процесса, включая расширение словаря, оптимизацию прямого предпочтения и проблему нехватки данных для выравнивания с человеком на языках с ограниченными ресурсами. Мы масштабируем эти эксперименты на 9 языках и 2 уровнях параметров (7B и 70B). Мы сравниваем наши модели с Llama 2, Aya-101, XGLM, BLOOM и существующими языковыми экспертами, превосходя все предыдущие базовые уровни. Кроме того, весь код оценки и контрольные точки сделаны общедоступными для облегчения будущих исследований.
English
Despite the widespread availability of LLMs, there remains a substantial gap
in their capabilities and availability across diverse languages. One approach
to address these issues has been to take an existing pre-trained LLM and
continue to train it on new languages. While prior works have experimented with
language adaptation, many questions around best practices and methodology have
not been covered. In this paper, we present a comprehensive investigation into
the adaptation of LLMs to new languages. Our study covers the key components in
this process, including vocabulary extension, direct preference optimization
and the data scarcity problem for human alignment in low-resource languages. We
scale these experiments across 9 languages and 2 parameter scales (7B and 70B).
We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing
language experts, outperforming all prior published baselines. Additionally,
all evaluation code and checkpoints are made public to facilitate future
research.Summary
AI-Generated Summary