BayLing: Überbrückung von Cross-lingualer Ausrichtung und Instruktionsbefolgung durch interaktive Übersetzung für große Sprachmodelle
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models
June 19, 2023
Autoren: Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Verständnis und der Generierung von Sprache gezeigt. Der Fortschritt von grundlegenden LLMs zu instruktionsfolgenden LLMs wird maßgeblich durch das Instruction Tuning vorangetrieben, das eine entscheidende Rolle bei der Ausrichtung der LLMs an menschlichen Präferenzen spielt. Allerdings konzentrieren sich die bestehenden LLMs meist auf Englisch, was zu einer unterdurchschnittlichen Leistung in nicht-englischen Sprachen führt. Um die Leistung für nicht-englische Sprachen zu verbessern, ist es notwendig, sprachspezifische Trainingsdaten für grundlegende LLMs zu sammeln und sprachspezifische Anweisungen für das Instruction Tuning zu erstellen, was beides einen erheblichen Aufwand darstellt. Um den menschlichen Arbeitsaufwand zu minimieren, schlagen wir vor, die Fähigkeiten der Sprachgenerierung und der Instruktionsbefolgung durch eine interaktive Übersetzungsaufgabe von Englisch auf andere Sprachen zu übertragen. Wir haben BayLing entwickelt, ein instruktionsfolgendes LLM, das LLaMA als grundlegendes LLM nutzt und automatisch interaktive Übersetzungsanweisungen für das Instruction Tuning erstellt. Umfangreiche Bewertungen zeigen, dass BayLing eine vergleichbare Leistung zu GPT-3.5-turbo erzielt, obwohl es eine deutlich geringere Parameterzahl von nur 13 Milliarden verwendet. Die experimentellen Ergebnisse zu Übersetzungsaufgaben zeigen, dass BayLing 95 % der Einzelgesprächs-Übersetzungsfähigkeit im Vergleich zu GPT-4 bei automatischer Bewertung und 96 % der interaktiven Übersetzungsfähigkeit im Vergleich zu GPT-3.5-turbo bei menschlicher Bewertung erreicht. Um die Leistung bei allgemeinen Aufgaben zu schätzen, haben wir einen Multi-Turn-Instruktionstestdatensatz namens BayLing-80 erstellt. Die experimentellen Ergebnisse auf BayLing-80 zeigen, dass BayLing 89 % der Leistung im Vergleich zu GPT-3.5-turbo erreicht. BayLing zeigt auch herausragende Leistungen bei der Wissensbewertung des chinesischen GaoKao und des englischen SAT und liegt unter einer Vielzahl von instruktionsfolgenden LLMs nur hinter GPT-3.5-turbo zurück. Demo, Homepage, Code und Modelle von BayLing sind verfügbar.
English
Large language models (LLMs) have demonstrated remarkable prowess in language
understanding and generation. Advancing from foundation LLMs to
instructionfollowing LLMs, instruction tuning plays a vital role in aligning
LLMs to human preferences. However, the existing LLMs are usually focused on
English, leading to inferior performance in non-English languages. In order to
improve the performance for non-English languages, it is necessary to collect
language-specific training data for foundation LLMs and construct
language-specific instructions for instruction tuning, both of which are heavy
loads. To minimize human workload, we propose to transfer the capabilities of
language generation and instruction following from English to other languages
through an interactive translation task. We have developed BayLing, an
instruction-following LLM by utilizing LLaMA as the foundation LLM and
automatically constructing interactive translation instructions for instructing
tuning. Extensive assessments demonstrate that BayLing achieves comparable
performance to GPT-3.5-turbo, despite utilizing a considerably smaller
parameter size of only 13 billion. Experimental results on translation tasks
show that BayLing achieves 95% of single-turn translation capability compared
to GPT-4 with automatic evaluation and 96% of interactive translation
capability compared to GPT-3.5-turbo with human evaluation. To estimate the
performance on general tasks, we created a multi-turn instruction test set
called BayLing-80. The experimental results on BayLing-80 indicate that BayLing
achieves 89% of performance compared to GPT-3.5-turbo. BayLing also
demonstrates outstanding performance on knowledge assessment of Chinese GaoKao
and English SAT, second only to GPT-3.5-turbo among a multitude of
instruction-following LLMs. Demo, homepage, code and models of BayLing are
available.