Het analyseren van de effecten van supervised fine-tuning op modelkennis vanuit token- en parameterniveaus
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
September 20, 2025
Auteurs: Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) verwerven aanzienlijke wereldkennis tijdens
voorafgaande training, die verder wordt gevormd door technieken na de training, zoals
gesuperviseerde fine-tuning (SFT). Het effect van SFT op de kennis van een model
blijft echter onderbelicht, wat ons vermogen beperkt om kennisveranderingsgedrag
in gefinetunede modellen te beheersen. Om deze kloof te dichten, evalueren we de
prestaties van closed-book vraagbeantwoording (CBQA) over vijf LLMs uit de LLaMA-2 en
LLaMA-3 families. Verrassend genoeg presteren modellen die gefinetuned zijn op 1.920 voorbeelden tot
14% slechter dan die gefinetuned zijn op slechts 240 voorbeelden. Bovendien leidt het variëren
van het niveau van kennisbeheersing in de finetuninggegevens tot prestatiefluctuaties van meer dan 12%. Om deze effecten te onderzoeken, analyseren we het modelgedrag
op zowel het token- als het parameterniveau. Onze analyse onthult dat tot
90% van de parameterupdates tijdens SFT niet bijdraagt aan kennisverbetering.
Het herstellen van deze updates kan de prestaties op de CBQA-taak verbeteren,
afhankelijk van de kenmerken van de finetuninggegevens. Deze inzichten bieden
praktische richtlijnen voor het ontwikkelen van finetuningstrategieën die de modelkennis effectiever versterken.
English
Large language models (LLMs) acquire substantial world knowledge during
pre-training, which is further shaped by post-training techniques such as
supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge
remains underexplored, limiting our ability to control knowledge change
behavior in fine-tuned models. To address this gap, we evaluate closed-book
question answering (CBQA) performance across five LLMs from the LLaMA-2 and
LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up
to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying
the level of knowledge mastery in the fine-tuning data leads to performance
fluctuations of over 12%. To investigate these effects, we analyze model
behavior at both the token and parameter levels. Our analysis reveals that up
to 90% of parameter updates during SFT do not contribute to knowledge
enhancement. Restoring these updates can improve performance on the CBQA task,
depending on the characteristics of the fine-tuning data. These insights offer
practical guidance for developing fine-tuning strategies that more effectively
strengthen model knowledge.