Analisi degli Effetti del Fine-Tuning Supervisionato sulla Conoscenza del Modello a Livello di Token e Parametri
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
September 20, 2025
Autori: Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) acquisiscono una conoscenza sostanziale del mondo durante il pre-addestramento, che viene ulteriormente modellata da tecniche post-addestramento come il fine-tuning supervisionato (SFT). Tuttavia, l'impatto dell'SFT sulla conoscenza del modello rimane poco esplorato, limitando la nostra capacità di controllare il comportamento del cambiamento di conoscenza nei modelli fine-tuned. Per colmare questa lacuna, valutiamo le prestazioni di risposta a domande a libro chiuso (CBQA) su cinque LLM delle famiglie LLaMA-2 e LLaMA-3. Sorprendentemente, i modelli fine-tuned su 1.920 campioni performano fino al 14% peggio rispetto a quelli fine-tuned su soli 240 campioni. Inoltre, variare il livello di padronanza della conoscenza nei dati di fine-tuning porta a fluttuazioni delle prestazioni superiori al 12%. Per indagare questi effetti, analizziamo il comportamento del modello sia a livello di token che di parametri. La nostra analisi rivela che fino al 90% degli aggiornamenti dei parametri durante l'SFT non contribuisce al miglioramento della conoscenza. Ripristinare questi aggiornamenti può migliorare le prestazioni nel task CBQA, a seconda delle caratteristiche dei dati di fine-tuning. Queste intuizioni offrono una guida pratica per sviluppare strategie di fine-tuning che rafforzino più efficacemente la conoscenza del modello.
English
Large language models (LLMs) acquire substantial world knowledge during
pre-training, which is further shaped by post-training techniques such as
supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge
remains underexplored, limiting our ability to control knowledge change
behavior in fine-tuned models. To address this gap, we evaluate closed-book
question answering (CBQA) performance across five LLMs from the LLaMA-2 and
LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up
to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying
the level of knowledge mastery in the fine-tuning data leads to performance
fluctuations of over 12%. To investigate these effects, we analyze model
behavior at both the token and parameter levels. Our analysis reveals that up
to 90% of parameter updates during SFT do not contribute to knowledge
enhancement. Restoring these updates can improve performance on the CBQA task,
depending on the characteristics of the fine-tuning data. These insights offer
practical guidance for developing fine-tuning strategies that more effectively
strengthen model knowledge.