BayLing : Combler l'alignement interlangues et le suivi d'instructions grâce à la traduction interactive pour les grands modèles de langage
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models
June 19, 2023
Auteurs: Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en compréhension et génération de langage. En évoluant des LLMs de base vers des LLMs suivant des instructions, le réglage par instruction joue un rôle crucial pour aligner les LLMs sur les préférences humaines. Cependant, les LLMs existants se concentrent généralement sur l'anglais, ce qui entraîne des performances inférieures dans les langues non anglophones. Pour améliorer les performances dans les langues non anglophones, il est nécessaire de collecter des données d'entraînement spécifiques à chaque langue pour les LLMs de base et de construire des instructions spécifiques à chaque langue pour le réglage par instruction, deux tâches qui représentent une charge de travail importante. Pour minimiser l'effort humain, nous proposons de transférer les capacités de génération de langage et de suivi d'instructions de l'anglais vers d'autres langues à travers une tâche de traduction interactive. Nous avons développé BayLing, un LLM suivant des instructions, en utilisant LLaMA comme LLM de base et en construisant automatiquement des instructions de traduction interactive pour le réglage par instruction. Des évaluations approfondies démontrent que BayLing atteint des performances comparables à GPT-3.5-turbo, malgré une taille de paramètres considérablement plus petite, seulement 13 milliards. Les résultats expérimentaux sur les tâches de traduction montrent que BayLing atteint 95 % de la capacité de traduction en un seul tour par rapport à GPT-4 avec une évaluation automatique et 96 % de la capacité de traduction interactive par rapport à GPT-3.5-turbo avec une évaluation humaine. Pour estimer les performances sur des tâches générales, nous avons créé un ensemble de test d'instructions multi-tours appelé BayLing-80. Les résultats expérimentaux sur BayLing-80 indiquent que BayLing atteint 89 % des performances par rapport à GPT-3.5-turbo. BayLing démontre également des performances exceptionnelles sur l'évaluation des connaissances du GaoKao chinois et du SAT anglais, se classant juste derrière GPT-3.5-turbo parmi une multitude de LLMs suivant des instructions. La démo, la page d'accueil, le code et les modèles de BayLing sont disponibles.
English
Large language models (LLMs) have demonstrated remarkable prowess in language
understanding and generation. Advancing from foundation LLMs to
instructionfollowing LLMs, instruction tuning plays a vital role in aligning
LLMs to human preferences. However, the existing LLMs are usually focused on
English, leading to inferior performance in non-English languages. In order to
improve the performance for non-English languages, it is necessary to collect
language-specific training data for foundation LLMs and construct
language-specific instructions for instruction tuning, both of which are heavy
loads. To minimize human workload, we propose to transfer the capabilities of
language generation and instruction following from English to other languages
through an interactive translation task. We have developed BayLing, an
instruction-following LLM by utilizing LLaMA as the foundation LLM and
automatically constructing interactive translation instructions for instructing
tuning. Extensive assessments demonstrate that BayLing achieves comparable
performance to GPT-3.5-turbo, despite utilizing a considerably smaller
parameter size of only 13 billion. Experimental results on translation tasks
show that BayLing achieves 95% of single-turn translation capability compared
to GPT-4 with automatic evaluation and 96% of interactive translation
capability compared to GPT-3.5-turbo with human evaluation. To estimate the
performance on general tasks, we created a multi-turn instruction test set
called BayLing-80. The experimental results on BayLing-80 indicate that BayLing
achieves 89% of performance compared to GPT-3.5-turbo. BayLing also
demonstrates outstanding performance on knowledge assessment of Chinese GaoKao
and English SAT, second only to GPT-3.5-turbo among a multitude of
instruction-following LLMs. Demo, homepage, code and models of BayLing are
available.