FIAT: Verschmelzung von Lernparadigmen durch Instruktions-beschleunigtes Tuning
FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning
September 9, 2023
Autoren: Xinyi Wang, John Wieting, Jonathan H. Clark
cs.AI
Zusammenfassung
Lernparadigmen für große Sprachmodelle (LLMs) lassen sich derzeit grob in In-Context-Lernen (ICL) und vollständiges Fine-Tuning einteilen. Jeder dieser Ansätze bringt spezifische Vor- und Nachteile mit sich, die sich aus verfügbaren Daten, Modellgröße, Rechenkosten, Benutzerfreundlichkeit und der finalen Qualität ergeben, wobei keine der beiden Lösungen in allen Bereichen gleichermaßen gut abschneidet. In diesem Artikel beschreiben wir zunächst die ICL- und Fine-Tuning-Paradigmen so, dass ihre natürlichen Zusammenhänge deutlich werden. Basierend auf diesen Zusammenhängen schlagen wir ein neues Lernparadigma namens FIAT vor, das die Stärken beider Ansätze vereint. FIAT ermöglicht prompt-gesteuerte Anweisungen und Chain-of-Thought-Denkprozesse mit den größten Modellen, während es gleichzeitig ähnliche Methoden verwendet, um parameter-effizientes Tuning an einem moderat großen LLM durchzuführen. Wir evaluieren die Wirksamkeit von FIAT anhand verschiedener multilingualer Aufgaben und stellen fest, dass FIAT sowohl ICL als auch Fine-Tuning bei Trainingsbeispielen im Bereich von 100 bis 10.000 übertrifft. Wir hoffen, dass FIAT einen praktischen Weg bietet, das volle Potenzial von LLMs auszuschöpfen, ohne eine schwierige Wahl zwischen den Lernparadigmen treffen zu müssen.
English
Learning paradigms for large language models (LLMs) currently tend to fall
within either in-context learning (ICL) or full fine-tuning. Each of these
comes with their own trade-offs based on available data, model size, compute
cost, ease-of-use, and final quality with neither solution performing well
across-the-board. In this article, we first describe ICL and fine-tuning
paradigms in a way that highlights their natural connections. Based on these
connections, we propose a new learning paradigm called FIAT that fuses the best
of these paradigms together, enabling prompt-engineered instructions and
chain-of-thought reasoning with the very largest models while also using
similar methods to perform parameter updates on a modestly-sized LLM with
parameter-efficient tuning. We evaluate FIAT's effectiveness on a variety of
multilingual tasks and observe that FIAT performs better than both ICL and
fine-tuning at scales ranging from 100-10,000 training examples. We hope that
FIAT provides a practical way of harnessing the full potential of LLMs without
needing to make a hard choice between learning paradigms.