ChatPaper.aiChatPaper

FIAT: Fusie van leerparadigma's met Instructie-Gestuurde Afstemming

FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning

September 9, 2023
Auteurs: Xinyi Wang, John Wieting, Jonathan H. Clark
cs.AI

Samenvatting

Leerparadigma's voor grote taalmodellen (LLMs) vallen momenteel meestal binnen in-context learning (ICL) of volledige fine-tuning. Elk van deze benaderingen brengt zijn eigen afwegingen met zich mee op basis van beschikbare data, modelgrootte, rekenkosten, gebruiksgemak en uiteindelijke kwaliteit, waarbij geen van beide oplossingen over de hele linie goed presteert. In dit artikel beschrijven we eerst de ICL- en fine-tuning-paradigma's op een manier die hun natuurlijke verbanden benadrukt. Op basis van deze verbanden stellen we een nieuw leerparadigma voor, genaamd FIAT, dat de beste aspecten van deze paradigma's combineert. Hierdoor worden prompt-gestuurde instructies en chain-of-thought redenering mogelijk gemaakt met de grootste modellen, terwijl ook vergelijkbare methoden worden gebruikt om parameter-updates uit te voeren op een bescheiden groot LLM met parameter-efficiënte tuning. We evalueren de effectiviteit van FIAT op een verscheidenheid aan meertalige taken en observeren dat FIAT beter presteert dan zowel ICL als fine-tuning bij schalen variërend van 100 tot 10.000 trainingsvoorbeelden. We hopen dat FIAT een praktische manier biedt om het volledige potentieel van LLMs te benutten zonder een moeilijke keuze te hoeven maken tussen leerparadigma's.
English
Learning paradigms for large language models (LLMs) currently tend to fall within either in-context learning (ICL) or full fine-tuning. Each of these comes with their own trade-offs based on available data, model size, compute cost, ease-of-use, and final quality with neither solution performing well across-the-board. In this article, we first describe ICL and fine-tuning paradigms in a way that highlights their natural connections. Based on these connections, we propose a new learning paradigm called FIAT that fuses the best of these paradigms together, enabling prompt-engineered instructions and chain-of-thought reasoning with the very largest models while also using similar methods to perform parameter updates on a modestly-sized LLM with parameter-efficient tuning. We evaluate FIAT's effectiveness on a variety of multilingual tasks and observe that FIAT performs better than both ICL and fine-tuning at scales ranging from 100-10,000 training examples. We hope that FIAT provides a practical way of harnessing the full potential of LLMs without needing to make a hard choice between learning paradigms.
PDF60February 15, 2026