BayLing: Colmare il divario tra allineamento cross-linguale e seguimento delle istruzioni attraverso la traduzione interattiva per i grandi modelli linguistici
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models
June 19, 2023
Autori: Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato una notevole abilità nella comprensione e generazione del linguaggio. Passando dai LLM di base ai LLM che seguono istruzioni, la regolazione delle istruzioni svolge un ruolo cruciale nell'allineare i LLM alle preferenze umane. Tuttavia, gli LLM esistenti sono generalmente focalizzati sull'inglese, portando a prestazioni inferiori nelle lingue non inglesi. Per migliorare le prestazioni per le lingue non inglesi, è necessario raccogliere dati di addestramento specifici per la lingua per i LLM di base e costruire istruzioni specifiche per la lingua per la regolazione delle istruzioni, entrambi compiti onerosi. Per minimizzare il carico di lavoro umano, proponiamo di trasferire le capacità di generazione del linguaggio e di seguire istruzioni dall'inglese ad altre lingue attraverso un compito di traduzione interattiva. Abbiamo sviluppato BayLing, un LLM che segue istruzioni, utilizzando LLaMA come LLM di base e costruendo automaticamente istruzioni di traduzione interattiva per la regolazione delle istruzioni. Valutazioni estensive dimostrano che BayLing raggiunge prestazioni comparabili a GPT-3.5-turbo, nonostante utilizzi una dimensione dei parametri considerevolmente più piccola, pari a soli 13 miliardi. I risultati sperimentali sui compiti di traduzione mostrano che BayLing raggiunge il 95% della capacità di traduzione a turno singolo rispetto a GPT-4 con valutazione automatica e il 96% della capacità di traduzione interattiva rispetto a GPT-3.5-turbo con valutazione umana. Per stimare le prestazioni su compiti generali, abbiamo creato un set di test di istruzioni multi-turn chiamato BayLing-80. I risultati sperimentali su BayLing-80 indicano che BayLing raggiunge l'89% delle prestazioni rispetto a GPT-3.5-turbo. BayLing dimostra anche prestazioni eccezionali nella valutazione delle conoscenze del GaoKao cinese e del SAT inglese, risultando secondo solo a GPT-3.5-turbo tra una moltitudine di LLM che seguono istruzioni. Demo, homepage, codice e modelli di BayLing sono disponibili.
English
Large language models (LLMs) have demonstrated remarkable prowess in language
understanding and generation. Advancing from foundation LLMs to
instructionfollowing LLMs, instruction tuning plays a vital role in aligning
LLMs to human preferences. However, the existing LLMs are usually focused on
English, leading to inferior performance in non-English languages. In order to
improve the performance for non-English languages, it is necessary to collect
language-specific training data for foundation LLMs and construct
language-specific instructions for instruction tuning, both of which are heavy
loads. To minimize human workload, we propose to transfer the capabilities of
language generation and instruction following from English to other languages
through an interactive translation task. We have developed BayLing, an
instruction-following LLM by utilizing LLaMA as the foundation LLM and
automatically constructing interactive translation instructions for instructing
tuning. Extensive assessments demonstrate that BayLing achieves comparable
performance to GPT-3.5-turbo, despite utilizing a considerably smaller
parameter size of only 13 billion. Experimental results on translation tasks
show that BayLing achieves 95% of single-turn translation capability compared
to GPT-4 with automatic evaluation and 96% of interactive translation
capability compared to GPT-3.5-turbo with human evaluation. To estimate the
performance on general tasks, we created a multi-turn instruction test set
called BayLing-80. The experimental results on BayLing-80 indicate that BayLing
achieves 89% of performance compared to GPT-3.5-turbo. BayLing also
demonstrates outstanding performance on knowledge assessment of Chinese GaoKao
and English SAT, second only to GPT-3.5-turbo among a multitude of
instruction-following LLMs. Demo, homepage, code and models of BayLing are
available.