BayLing: Conectando la alineación interlingüística y el seguimiento de instrucciones mediante traducción interactiva para modelos de lenguaje de gran escala
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models
June 19, 2023
Autores: Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una notable destreza en la comprensión y generación de lenguaje. Al avanzar desde los LLMs base hacia los LLMs que siguen instrucciones, el ajuste por instrucciones desempeña un papel vital en la alineación de los LLMs con las preferencias humanas. Sin embargo, los LLMs existentes suelen estar centrados en el inglés, lo que conduce a un rendimiento inferior en idiomas no ingleses. Para mejorar el rendimiento en idiomas no ingleses, es necesario recopilar datos de entrenamiento específicos del idioma para los LLMs base y construir instrucciones específicas del idioma para el ajuste por instrucciones, ambas tareas que representan cargas significativas. Para minimizar la carga de trabajo humana, proponemos transferir las capacidades de generación de lenguaje y seguimiento de instrucciones del inglés a otros idiomas mediante una tarea de traducción interactiva. Hemos desarrollado BayLing, un LLM que sigue instrucciones, utilizando LLaMA como LLM base y construyendo automáticamente instrucciones de traducción interactiva para el ajuste por instrucciones. Evaluaciones exhaustivas demuestran que BayLing alcanza un rendimiento comparable al de GPT-3.5-turbo, a pesar de utilizar un tamaño de parámetros considerablemente menor de solo 13 mil millones. Los resultados experimentales en tareas de traducción muestran que BayLing alcanza el 95% de la capacidad de traducción de una sola vuelta en comparación con GPT-4 mediante evaluación automática y el 96% de la capacidad de traducción interactiva en comparación con GPT-3.5-turbo mediante evaluación humana. Para estimar el rendimiento en tareas generales, creamos un conjunto de pruebas de instrucciones de múltiples vueltas llamado BayLing-80. Los resultados experimentales en BayLing-80 indican que BayLing alcanza el 89% del rendimiento en comparación con GPT-3.5-turbo. BayLing también demuestra un rendimiento sobresaliente en la evaluación de conocimientos del GaoKao chino y del SAT inglés, quedando en segundo lugar solo detrás de GPT-3.5-turbo entre una multitud de LLMs que siguen instrucciones. La demostración, página de inicio, código y modelos de BayLing están disponibles.
English
Large language models (LLMs) have demonstrated remarkable prowess in language
understanding and generation. Advancing from foundation LLMs to
instructionfollowing LLMs, instruction tuning plays a vital role in aligning
LLMs to human preferences. However, the existing LLMs are usually focused on
English, leading to inferior performance in non-English languages. In order to
improve the performance for non-English languages, it is necessary to collect
language-specific training data for foundation LLMs and construct
language-specific instructions for instruction tuning, both of which are heavy
loads. To minimize human workload, we propose to transfer the capabilities of
language generation and instruction following from English to other languages
through an interactive translation task. We have developed BayLing, an
instruction-following LLM by utilizing LLaMA as the foundation LLM and
automatically constructing interactive translation instructions for instructing
tuning. Extensive assessments demonstrate that BayLing achieves comparable
performance to GPT-3.5-turbo, despite utilizing a considerably smaller
parameter size of only 13 billion. Experimental results on translation tasks
show that BayLing achieves 95% of single-turn translation capability compared
to GPT-4 with automatic evaluation and 96% of interactive translation
capability compared to GPT-3.5-turbo with human evaluation. To estimate the
performance on general tasks, we created a multi-turn instruction test set
called BayLing-80. The experimental results on BayLing-80 indicate that BayLing
achieves 89% of performance compared to GPT-3.5-turbo. BayLing also
demonstrates outstanding performance on knowledge assessment of Chinese GaoKao
and English SAT, second only to GPT-3.5-turbo among a multitude of
instruction-following LLMs. Demo, homepage, code and models of BayLing are
available.