BayLing: Conectando o Alinhamento Translinguístico e o Seguimento de Instruções por meio de Tradução Interativa para Modelos de Linguagem de Grande Escala
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models
June 19, 2023
Autores: Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado habilidades notáveis em compreensão e geração de linguagem. Ao evoluir de LLMs base para LLMs que seguem instruções, o ajuste por instrução desempenha um papel vital no alinhamento desses modelos às preferências humanas. No entanto, os LLMs existentes geralmente são focados no inglês, resultando em desempenho inferior em idiomas não ingleses. Para melhorar o desempenho em idiomas não ingleses, é necessário coletar dados de treinamento específicos para LLMs base e construir instruções específicas para o ajuste por instrução, ambos sendo tarefas intensivas. Para minimizar o esforço humano, propomos transferir as capacidades de geração de linguagem e seguimento de instruções do inglês para outros idiomas por meio de uma tarefa de tradução interativa. Desenvolvemos o BayLing, um LLM que segue instruções, utilizando o LLaMA como LLM base e construindo automaticamente instruções de tradução interativa para o ajuste por instrução. Avaliações extensivas demonstram que o BayLing alcança desempenho comparável ao GPT-3.5-turbo, apesar de utilizar um número de parâmetros significativamente menor, de apenas 13 bilhões. Resultados experimentais em tarefas de tradução mostram que o BayLing alcança 95% da capacidade de tradução de turno único em comparação ao GPT-4 com avaliação automática e 96% da capacidade de tradução interativa em comparação ao GPT-3.5-turbo com avaliação humana. Para estimar o desempenho em tarefas gerais, criamos um conjunto de testes de instruções multi-turn chamado BayLing-80. Os resultados experimentais no BayLing-80 indicam que o BayLing alcança 89% do desempenho em comparação ao GPT-3.5-turbo. O BayLing também demonstra desempenho excepcional em avaliações de conhecimento do GaoKao chinês e do SAT inglês, ficando atrás apenas do GPT-3.5-turbo entre uma variedade de LLMs que seguem instruções. Demonstração, página inicial, código e modelos do BayLing estão disponíveis.
English
Large language models (LLMs) have demonstrated remarkable prowess in language
understanding and generation. Advancing from foundation LLMs to
instructionfollowing LLMs, instruction tuning plays a vital role in aligning
LLMs to human preferences. However, the existing LLMs are usually focused on
English, leading to inferior performance in non-English languages. In order to
improve the performance for non-English languages, it is necessary to collect
language-specific training data for foundation LLMs and construct
language-specific instructions for instruction tuning, both of which are heavy
loads. To minimize human workload, we propose to transfer the capabilities of
language generation and instruction following from English to other languages
through an interactive translation task. We have developed BayLing, an
instruction-following LLM by utilizing LLaMA as the foundation LLM and
automatically constructing interactive translation instructions for instructing
tuning. Extensive assessments demonstrate that BayLing achieves comparable
performance to GPT-3.5-turbo, despite utilizing a considerably smaller
parameter size of only 13 billion. Experimental results on translation tasks
show that BayLing achieves 95% of single-turn translation capability compared
to GPT-4 with automatic evaluation and 96% of interactive translation
capability compared to GPT-3.5-turbo with human evaluation. To estimate the
performance on general tasks, we created a multi-turn instruction test set
called BayLing-80. The experimental results on BayLing-80 indicate that BayLing
achieves 89% of performance compared to GPT-3.5-turbo. BayLing also
demonstrates outstanding performance on knowledge assessment of Chinese GaoKao
and English SAT, second only to GPT-3.5-turbo among a multitude of
instruction-following LLMs. Demo, homepage, code and models of BayLing are
available.