BayLing: Соединение кросс-языкового выравнивания и следования инструкциям через интерактивный перевод для больших языковых моделей
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models
June 19, 2023
Авторы: Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации текста. Переход от базовых LLM к моделям, ориентированным на выполнение инструкций, подчеркивает важность настройки на инструкции для согласования LLM с предпочтениями человека. Однако существующие LLM обычно ориентированы на английский язык, что приводит к более низкой производительности в других языках. Для улучшения работы с неанглийскими языками необходимо собирать языково-специфичные данные для обучения базовых LLM и создавать языково-специфичные инструкции для настройки, что требует значительных усилий. Чтобы минимизировать затраты человеческого труда, мы предлагаем переносить способности генерации текста и выполнения инструкций с английского на другие языки через интерактивную задачу перевода. Мы разработали BayLing — LLM, ориентированную на выполнение инструкций, используя LLaMA в качестве базовой модели и автоматически создавая интерактивные инструкции для перевода для настройки. Многочисленные оценки показывают, что BayLing достигает сопоставимой производительности с GPT-3.5-turbo, несмотря на значительно меньший размер параметров — всего 13 миллиардов. Результаты экспериментов на задачах перевода демонстрируют, что BayLing достигает 95% способности к одношаговому переводу по сравнению с GPT-4 при автоматической оценке и 96% способности к интерактивному переводу по сравнению с GPT-3.5-turbo при оценке человеком. Для оценки производительности на общих задачах мы создали тестовый набор многошаговых инструкций под названием BayLing-80. Результаты экспериментов на BayLing-80 показывают, что BayLing достигает 89% производительности по сравнению с GPT-3.5-turbo. BayLing также демонстрирует выдающиеся результаты в оценке знаний на китайском экзамене GaoKao и английском SAT, уступая только GPT-3.5-turbo среди множества LLM, ориентированных на выполнение инструкций. Демо, домашняя страница, код и модели BayLing доступны.
English
Large language models (LLMs) have demonstrated remarkable prowess in language
understanding and generation. Advancing from foundation LLMs to
instructionfollowing LLMs, instruction tuning plays a vital role in aligning
LLMs to human preferences. However, the existing LLMs are usually focused on
English, leading to inferior performance in non-English languages. In order to
improve the performance for non-English languages, it is necessary to collect
language-specific training data for foundation LLMs and construct
language-specific instructions for instruction tuning, both of which are heavy
loads. To minimize human workload, we propose to transfer the capabilities of
language generation and instruction following from English to other languages
through an interactive translation task. We have developed BayLing, an
instruction-following LLM by utilizing LLaMA as the foundation LLM and
automatically constructing interactive translation instructions for instructing
tuning. Extensive assessments demonstrate that BayLing achieves comparable
performance to GPT-3.5-turbo, despite utilizing a considerably smaller
parameter size of only 13 billion. Experimental results on translation tasks
show that BayLing achieves 95% of single-turn translation capability compared
to GPT-4 with automatic evaluation and 96% of interactive translation
capability compared to GPT-3.5-turbo with human evaluation. To estimate the
performance on general tasks, we created a multi-turn instruction test set
called BayLing-80. The experimental results on BayLing-80 indicate that BayLing
achieves 89% of performance compared to GPT-3.5-turbo. BayLing also
demonstrates outstanding performance on knowledge assessment of Chinese GaoKao
and English SAT, second only to GPT-3.5-turbo among a multitude of
instruction-following LLMs. Demo, homepage, code and models of BayLing are
available.