BayLing: Het overbruggen van cross-linguale uitlijning en instructieopvolging door middel van interactieve vertaling voor grote taalmodellen
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models
June 19, 2023
Auteurs: Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in taalbegrip en -generatie. Bij de overgang van fundamentele LLMs naar instructievolgende LLMs speelt instructieafstemming een cruciale rol in het afstemmen van LLMs op menselijke voorkeuren. De bestaande LLMs zijn echter meestal gericht op Engels, wat leidt tot inferieure prestaties in niet-Engelse talen. Om de prestaties voor niet-Engelse talen te verbeteren, is het noodzakelijk om taalspecifieke trainingsdata te verzamelen voor fundamentele LLMs en taalspecifieke instructies te construeren voor instructieafstemming, wat beide zware taken zijn. Om de menselijke werklast te minimaliseren, stellen we voor om de capaciteiten van taalgeneratie en instructievolgen van Engels naar andere talen over te dragen via een interactieve vertaaltaak. We hebben BayLing ontwikkeld, een instructievolgend LLM, door LLaMA te gebruiken als het fundamentele LLM en automatisch interactieve vertaalinstructies te construeren voor instructieafstemming. Uitgebreide evaluaties tonen aan dat BayLing vergelijkbare prestaties bereikt als GPT-3.5-turbo, ondanks het gebruik van een aanzienlijk kleiner aantal parameters van slechts 13 miljard. Experimentele resultaten op vertaaltaken laten zien dat BayLing 95% van de enkelvoudige vertaalcapaciteit bereikt in vergelijking met GPT-4 bij automatische evaluatie en 96% van de interactieve vertaalcapaciteit in vergelijking met GPT-3.5-turbo bij menselijke evaluatie. Om de prestaties op algemene taken te schatten, hebben we een multi-turn instructietestset genaamd BayLing-80 gemaakt. De experimentele resultaten op BayLing-80 geven aan dat BayLing 89% van de prestaties bereikt in vergelijking met GPT-3.5-turbo. BayLing toont ook uitstekende prestaties op kennisbeoordeling van Chinese GaoKao en Engelse SAT, en staat op de tweede plaats na GPT-3.5-turbo onder een groot aantal instructievolgende LLMs. Demo, homepage, code en modellen van BayLing zijn beschikbaar.
English
Large language models (LLMs) have demonstrated remarkable prowess in language
understanding and generation. Advancing from foundation LLMs to
instructionfollowing LLMs, instruction tuning plays a vital role in aligning
LLMs to human preferences. However, the existing LLMs are usually focused on
English, leading to inferior performance in non-English languages. In order to
improve the performance for non-English languages, it is necessary to collect
language-specific training data for foundation LLMs and construct
language-specific instructions for instruction tuning, both of which are heavy
loads. To minimize human workload, we propose to transfer the capabilities of
language generation and instruction following from English to other languages
through an interactive translation task. We have developed BayLing, an
instruction-following LLM by utilizing LLaMA as the foundation LLM and
automatically constructing interactive translation instructions for instructing
tuning. Extensive assessments demonstrate that BayLing achieves comparable
performance to GPT-3.5-turbo, despite utilizing a considerably smaller
parameter size of only 13 billion. Experimental results on translation tasks
show that BayLing achieves 95% of single-turn translation capability compared
to GPT-4 with automatic evaluation and 96% of interactive translation
capability compared to GPT-3.5-turbo with human evaluation. To estimate the
performance on general tasks, we created a multi-turn instruction test set
called BayLing-80. The experimental results on BayLing-80 indicate that BayLing
achieves 89% of performance compared to GPT-3.5-turbo. BayLing also
demonstrates outstanding performance on knowledge assessment of Chinese GaoKao
and English SAT, second only to GPT-3.5-turbo among a multitude of
instruction-following LLMs. Demo, homepage, code and models of BayLing are
available.