Taalmodellen finetunen met alleen voorwaartse passes

Samenvatting

Het finetunen van taalmmodellen (LMs) heeft succes opgeleverd bij diverse downstream taken, maar naarmate LMs in omvang groeien, vereist backpropagation een onpraktisch grote hoeveelheid geheugen. Zeroth-order (ZO) methoden kunnen in principe gradiënten schatten met slechts twee forward passes, maar worden theoretisch gezien als catastrofaal traag voor het optimaliseren van grote modellen. In dit werk stellen we een geheugenefficiënte zeroth-order optimizer (MeZO) voor, waarbij de klassieke ZO-SGD-methode wordt aangepast om in-place te werken, waardoor LMs kunnen worden gefinetuned met dezelfde geheugenvoetafdruk als bij inferentie. Zo kan MeZO met een enkele A100 80GB GPU een model met 30 miljard parameters trainen, terwijl finetunen met backpropagation met hetzelfde budget slechts een 2,7B LM kan trainen. We voeren uitgebreide experimenten uit over verschillende modeltypen (gemaskeerde en autoregressieve LMs), modelschalen (tot 66B), en downstream taken (classificatie, meerkeuze, en generatie). Onze resultaten tonen aan dat (1) MeZO aanzienlijk beter presteert dan in-context learning en lineair sonderen; (2) MeZO vergelijkbare prestaties bereikt als finetunen met backpropagation over meerdere taken, met een geheugenreductie tot 12x; (3) MeZO compatibel is met zowel full-parameter als parameter-efficiënte tuningtechnieken zoals LoRA en prefix tuning; (4) MeZO niet-differentieerbare doelstellingen effectief kan optimaliseren (bijvoorbeeld het maximaliseren van nauwkeurigheid of F1). We ondersteunen onze empirische bevindingen met theoretische inzichten, waarbij we benadrukken hoe adequate pre-training en taakprompts MeZO in staat stellen om enorme modellen te finetunen, ondanks klassieke ZO-analyses die anders suggereren.

English

Fine-tuning language models (LMs) has yielded success on diverse downstream tasks, but as LMs grow in size, backpropagation requires a prohibitively large amount of memory. Zeroth-order (ZO) methods can in principle estimate gradients using only two forward passes but are theorized to be catastrophically slow for optimizing large models. In this work, we propose a memory-efficient zerothorder optimizer (MeZO), adapting the classical ZO-SGD method to operate in-place, thereby fine-tuning LMs with the same memory footprint as inference. For example, with a single A100 80GB GPU, MeZO can train a 30-billion parameter model, whereas fine-tuning with backpropagation can train only a 2.7B LM with the same budget. We conduct comprehensive experiments across model types (masked and autoregressive LMs), model scales (up to 66B), and downstream tasks (classification, multiple-choice, and generation). Our results demonstrate that (1) MeZO significantly outperforms in-context learning and linear probing; (2) MeZO achieves comparable performance to fine-tuning with backpropagation across multiple tasks, with up to 12x memory reduction; (3) MeZO is compatible with both full-parameter and parameter-efficient tuning techniques such as LoRA and prefix tuning; (4) MeZO can effectively optimize non-differentiable objectives (e.g., maximizing accuracy or F1). We support our empirical findings with theoretical insights, highlighting how adequate pre-training and task prompts enable MeZO to fine-tune huge models, despite classical ZO analyses suggesting otherwise.

Taalmodellen finetunen met alleen voorwaartse passes

Fine-Tuning Language Models with Just Forward Passes

Samenvatting

Support