Analyse des effets du réglage fin supervisé sur les connaissances du modèle aux niveaux des tokens et des paramètres
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
September 20, 2025
papers.authors: Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan
cs.AI
papers.abstract
Les grands modèles de langage (LLM) acquièrent des connaissances substantielles sur le monde pendant la phase de pré-entraînement, qui sont ensuite façonnées par des techniques post-entraînement telles que le réglage fin supervisé (SFT). Cependant, l'impact du SFT sur les connaissances d'un modèle reste peu exploré, limitant notre capacité à contrôler le comportement de changement des connaissances dans les modèles réglés finement. Pour combler cette lacune, nous évaluons les performances en réponse à des questions en mode fermé (CBQA) sur cinq LLM des familles LLaMA-2 et LLaMA-3. Étonnamment, les modèles réglés finement sur 1 920 échantillons performent jusqu'à 14 % moins bien que ceux réglés finement sur seulement 240 échantillons. De plus, varier le niveau de maîtrise des connaissances dans les données de réglage fin entraîne des fluctuations de performance de plus de 12 %. Pour étudier ces effets, nous analysons le comportement du modèle à la fois au niveau des tokens et des paramètres. Notre analyse révèle que jusqu'à 90 % des mises à jour des paramètres pendant le SFT ne contribuent pas à l'amélioration des connaissances. Restaurer ces mises à jour peut améliorer les performances sur la tâche CBQA, en fonction des caractéristiques des données de réglage fin. Ces insights offrent des conseils pratiques pour développer des stratégies de réglage fin qui renforcent plus efficacement les connaissances du modèle.
English
Large language models (LLMs) acquire substantial world knowledge during
pre-training, which is further shaped by post-training techniques such as
supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge
remains underexplored, limiting our ability to control knowledge change
behavior in fine-tuned models. To address this gap, we evaluate closed-book
question answering (CBQA) performance across five LLMs from the LLaMA-2 and
LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up
to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying
the level of knowledge mastery in the fine-tuning data leads to performance
fluctuations of over 12%. To investigate these effects, we analyze model
behavior at both the token and parameter levels. Our analysis reveals that up
to 90% of parameter updates during SFT do not contribute to knowledge
enhancement. Restoring these updates can improve performance on the CBQA task,
depending on the characteristics of the fine-tuning data. These insights offer
practical guidance for developing fine-tuning strategies that more effectively
strengthen model knowledge.