Het analyseren van de effecten van supervised fine-tuning op modelkennis vanuit token- en parameterniveaus

Samenvatting

Grote taalmmodellen (LLMs) verwerven aanzienlijke wereldkennis tijdens voorafgaande training, die verder wordt gevormd door technieken na de training, zoals gesuperviseerde fine-tuning (SFT). Het effect van SFT op de kennis van een model blijft echter onderbelicht, wat ons vermogen beperkt om kennisveranderingsgedrag in gefinetunede modellen te beheersen. Om deze kloof te dichten, evalueren we de prestaties van closed-book vraagbeantwoording (CBQA) over vijf LLMs uit de LLaMA-2 en LLaMA-3 families. Verrassend genoeg presteren modellen die gefinetuned zijn op 1.920 voorbeelden tot 14% slechter dan die gefinetuned zijn op slechts 240 voorbeelden. Bovendien leidt het variëren van het niveau van kennisbeheersing in de finetuninggegevens tot prestatiefluctuaties van meer dan 12%. Om deze effecten te onderzoeken, analyseren we het modelgedrag op zowel het token- als het parameterniveau. Onze analyse onthult dat tot 90% van de parameterupdates tijdens SFT niet bijdraagt aan kennisverbetering. Het herstellen van deze updates kan de prestaties op de CBQA-taak verbeteren, afhankelijk van de kenmerken van de finetuninggegevens. Deze inzichten bieden praktische richtlijnen voor het ontwikkelen van finetuningstrategieën die de modelkennis effectiever versterken.

English

Large language models (LLMs) acquire substantial world knowledge during pre-training, which is further shaped by post-training techniques such as supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge remains underexplored, limiting our ability to control knowledge change behavior in fine-tuned models. To address this gap, we evaluate closed-book question answering (CBQA) performance across five LLMs from the LLaMA-2 and LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying the level of knowledge mastery in the fine-tuning data leads to performance fluctuations of over 12%. To investigate these effects, we analyze model behavior at both the token and parameter levels. Our analysis reveals that up to 90% of parameter updates during SFT do not contribute to knowledge enhancement. Restoring these updates can improve performance on the CBQA task, depending on the characteristics of the fine-tuning data. These insights offer practical guidance for developing fine-tuning strategies that more effectively strengthen model knowledge.

Het analyseren van de effecten van supervised fine-tuning op modelkennis vanuit token- en parameterniveaus

Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

Samenvatting

Support