Analyse der Auswirkungen von überwachtem Feinabstimmen auf das Modellwissen auf Token- und Parameterebene
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
September 20, 2025
papers.authors: Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) erwerben während des Vortrainings umfangreiches Weltwissen, das durch Nachtrainingsverfahren wie überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) weiter geformt wird. Der Einfluss von SFT auf das Wissen eines Modells bleibt jedoch weitgehend unerforscht, was unsere Fähigkeit einschränkt, das Wissensänderungsverhalten in feinabgestimmten Modellen zu kontrollieren. Um diese Lücke zu schließen, evaluieren wir die Leistung beim geschlossenen Frage-Antworten (Closed-Book Question Answering, CBQA) über fünf LLMs aus den LLaMA-2- und LLaMA-3-Familien. Überraschenderweise schneiden Modelle, die mit 1.920 Stichproben feinabgestimmt wurden, bis zu 14 % schlechter ab als solche, die mit nur 240 Stichproben feinabgestimmt wurden. Darüber hinaus führen unterschiedliche Niveaus der Wissensbeherrschung in den Feinabstimmungsdaten zu Leistungsschwankungen von über 12 %. Um diese Effekte zu untersuchen, analysieren wir das Modellverhalten sowohl auf Token- als auch auf Parameterebene. Unsere Analyse zeigt, dass bis zu 90 % der Parameteraktualisierungen während des SFT nicht zur Wissensverbesserung beitragen. Die Wiederherstellung dieser Aktualisierungen kann die Leistung bei der CBQA-Aufgabe verbessern, abhängig von den Eigenschaften der Feinabstimmungsdaten. Diese Erkenntnisse bieten praktische Leitlinien für die Entwicklung von Feinabstimmungsstrategien, die das Modellwissen effektiver stärken.
English
Large language models (LLMs) acquire substantial world knowledge during
pre-training, which is further shaped by post-training techniques such as
supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge
remains underexplored, limiting our ability to control knowledge change
behavior in fine-tuned models. To address this gap, we evaluate closed-book
question answering (CBQA) performance across five LLMs from the LLaMA-2 and
LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up
to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying
the level of knowledge mastery in the fine-tuning data leads to performance
fluctuations of over 12%. To investigate these effects, we analyze model
behavior at both the token and parameter levels. Our analysis reveals that up
to 90% of parameter updates during SFT do not contribute to knowledge
enhancement. Restoring these updates can improve performance on the CBQA task,
depending on the characteristics of the fine-tuning data. These insights offer
practical guidance for developing fine-tuning strategies that more effectively
strengthen model knowledge.