Analisando os Efeitos do Ajuste Fino Supervisionado no Conhecimento do Modelo a partir dos Níveis de Token e Parâmetro
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
September 20, 2025
Autores: Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) adquirem um conhecimento substancial do mundo durante o pré-treinamento, que é posteriormente moldado por técnicas de pós-treinamento, como o ajuste fino supervisionado (SFT). No entanto, o impacto do SFT no conhecimento de um modelo permanece pouco explorado, limitando nossa capacidade de controlar o comportamento de mudança de conhecimento em modelos ajustados. Para abordar essa lacuna, avaliamos o desempenho em tarefas de resposta a perguntas de livro fechado (CBQA) em cinco LLMs das famílias LLaMA-2 e LLaMA-3. Surpreendentemente, modelos ajustados com 1.920 amostras apresentam um desempenho até 14% pior do que aqueles ajustados com apenas 240 amostras. Além disso, variar o nível de domínio do conhecimento nos dados de ajuste fino leva a flutuações de desempenho superiores a 12%. Para investigar esses efeitos, analisamos o comportamento do modelo tanto no nível de tokens quanto no nível de parâmetros. Nossa análise revela que até 90% das atualizações de parâmetros durante o SFT não contribuem para o aprimoramento do conhecimento. Restaurar essas atualizações pode melhorar o desempenho na tarefa CBQA, dependendo das características dos dados de ajuste fino. Esses insights oferecem orientações práticas para o desenvolvimento de estratégias de ajuste fino que fortaleçam o conhecimento do modelo de forma mais eficaz.
English
Large language models (LLMs) acquire substantial world knowledge during
pre-training, which is further shaped by post-training techniques such as
supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge
remains underexplored, limiting our ability to control knowledge change
behavior in fine-tuned models. To address this gap, we evaluate closed-book
question answering (CBQA) performance across five LLMs from the LLaMA-2 and
LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up
to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying
the level of knowledge mastery in the fine-tuning data leads to performance
fluctuations of over 12%. To investigate these effects, we analyze model
behavior at both the token and parameter levels. Our analysis reveals that up
to 90% of parameter updates during SFT do not contribute to knowledge
enhancement. Restoring these updates can improve performance on the CBQA task,
depending on the characteristics of the fine-tuning data. These insights offer
practical guidance for developing fine-tuning strategies that more effectively
strengthen model knowledge.