Analyse der Auswirkungen von überwachtem Feinabstimmen auf das Modellwissen auf Token- und Parameterebene

papers.abstract

Große Sprachmodelle (LLMs) erwerben während des Vortrainings umfangreiches Weltwissen, das durch Nachtrainingsverfahren wie überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) weiter geformt wird. Der Einfluss von SFT auf das Wissen eines Modells bleibt jedoch weitgehend unerforscht, was unsere Fähigkeit einschränkt, das Wissensänderungsverhalten in feinabgestimmten Modellen zu kontrollieren. Um diese Lücke zu schließen, evaluieren wir die Leistung beim geschlossenen Frage-Antworten (Closed-Book Question Answering, CBQA) über fünf LLMs aus den LLaMA-2- und LLaMA-3-Familien. Überraschenderweise schneiden Modelle, die mit 1.920 Stichproben feinabgestimmt wurden, bis zu 14 % schlechter ab als solche, die mit nur 240 Stichproben feinabgestimmt wurden. Darüber hinaus führen unterschiedliche Niveaus der Wissensbeherrschung in den Feinabstimmungsdaten zu Leistungsschwankungen von über 12 %. Um diese Effekte zu untersuchen, analysieren wir das Modellverhalten sowohl auf Token- als auch auf Parameterebene. Unsere Analyse zeigt, dass bis zu 90 % der Parameteraktualisierungen während des SFT nicht zur Wissensverbesserung beitragen. Die Wiederherstellung dieser Aktualisierungen kann die Leistung bei der CBQA-Aufgabe verbessern, abhängig von den Eigenschaften der Feinabstimmungsdaten. Diese Erkenntnisse bieten praktische Leitlinien für die Entwicklung von Feinabstimmungsstrategien, die das Modellwissen effektiver stärken.

English

Large language models (LLMs) acquire substantial world knowledge during pre-training, which is further shaped by post-training techniques such as supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge remains underexplored, limiting our ability to control knowledge change behavior in fine-tuned models. To address this gap, we evaluate closed-book question answering (CBQA) performance across five LLMs from the LLaMA-2 and LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying the level of knowledge mastery in the fine-tuning data leads to performance fluctuations of over 12%. To investigate these effects, we analyze model behavior at both the token and parameter levels. Our analysis reveals that up to 90% of parameter updates during SFT do not contribute to knowledge enhancement. Restoring these updates can improve performance on the CBQA task, depending on the characteristics of the fine-tuning data. These insights offer practical guidance for developing fine-tuning strategies that more effectively strengthen model knowledge.

Analyse der Auswirkungen von überwachtem Feinabstimmen auf das Modellwissen auf Token- und Parameterebene

Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

papers.abstract

Support