LLaMA más allá del inglés: Un estudio empírico sobre la transferencia de capacidades lingüísticas
LLaMA Beyond English: An Empirical Study on Language Capability Transfer
January 2, 2024
Autores: Jun Zhao, Zhihao Zhang, Qi Zhang, Tao Gui, Xuanjing Huang
cs.AI
Resumen
En los últimos tiempos, se han observado avances significativos en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), ejemplificados por ChatGPT, que demuestran una notable competencia en una variedad de tareas complejas. Sin embargo, muchos LLMs principales (por ejemplo, LLaMA) están preentrenados en corpus dominados por el inglés, lo que limita su rendimiento en otros idiomas no ingleses. En este artículo, nos centramos en cómo transferir efectivamente las capacidades de generación de lenguaje y seguimiento de instrucciones a un idioma no inglés. Para responder a esta pregunta, llevamos a cabo una extensa investigación empírica basada en LLaMA, acumulando más de 1440 horas de GPU. Analizamos el impacto de factores clave como la extensión del vocabulario, el preentrenamiento adicional y el ajuste de instrucciones en la transferencia. Para evaluar con precisión el nivel de conocimiento del modelo, empleamos cuatro pruebas estandarizadas ampliamente utilizadas: C-Eval, MMLU, AGI-Eval y GAOKAO-Bench. Además, se realiza una evaluación exhaustiva de la calidad de las respuestas del modelo, considerando aspectos como precisión, fluidez, informatividad, coherencia lógica y ausencia de daño, basada en LLM-Eval, un conjunto de tareas de instrucción de 17 categorías diversas. Nuestros resultados de evaluación demuestran que se puede lograr un rendimiento comparable al de los modelos de transferencia más avanzados con menos del 1% de los datos de preentrenamiento, tanto en términos de alineación de conocimiento como de calidad de respuesta. Además, los resultados experimentales en los trece idiomas de bajos recursos también muestran tendencias similares. Anticipamos que las conclusiones reveladas por los experimentos ayudarán a la comunidad en el desarrollo de LLMs no ingleses.
English
In recent times, substantial advancements have been witnessed in large
language models (LLMs), exemplified by ChatGPT, showcasing remarkable
proficiency across a range of complex tasks. However, many mainstream LLMs
(e.g. LLaMA) are pretrained on English-dominant corpus, which limits their
performance in other non-English languages. In this paper, we focus on how to
effectively transfer the capabilities of language generation and following
instructions to a non-English language. To answer this question, we conduct an
extensive empirical investigation based on LLaMA, accumulating over 1440 GPU
hours. We analyze the impact of key factors such as vocabulary extension,
further pretraining, and instruction tuning on transfer. To accurately assess
the model's level of knowledge, we employ four widely used standardized testing
benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a
comprehensive evaluation of the model's response quality is conducted,
considering aspects such as accuracy, fluency, informativeness, logical
coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting
instruction tasks from 17 diverse categories. Our evaluation results
demonstrate that comparable performance to state-of-the-art transfer models can
be achieved with less than 1% of the pretraining data, both in terms of
knowledge alignment and response quality. Furthermore, the experimental
outcomes across the thirteen low-resource languages also exhibit similar
trends. We anticipate that the conclusions revealed by the experiments will aid
the community in developing non-English LLMs.Summary
AI-Generated Summary