Analizando los Efectos del Ajuste Fino Supervisado en el Conocimiento del Modelo desde los Niveles de Tokens y Parámetros
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
September 20, 2025
Autores: Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) adquieren un conocimiento sustancial del mundo durante el preentrenamiento, el cual es posteriormente moldeado por técnicas de posentrenamiento como el ajuste fino supervisado (SFT). Sin embargo, el impacto del SFT en el conocimiento de un modelo sigue siendo poco explorado, lo que limita nuestra capacidad para controlar el comportamiento de cambio de conocimiento en modelos ajustados. Para abordar esta brecha, evaluamos el rendimiento en tareas de respuesta a preguntas de libro cerrado (CBQA) en cinco LLMs de las familias LLaMA-2 y LLaMA-3. Sorprendentemente, los modelos ajustados con 1,920 muestras obtienen un rendimiento hasta un 14% peor que aquellos ajustados con solo 240 muestras. Además, variar el nivel de dominio del conocimiento en los datos de ajuste fino provoca fluctuaciones en el rendimiento de más del 12%. Para investigar estos efectos, analizamos el comportamiento del modelo tanto a nivel de tokens como de parámetros. Nuestro análisis revela que hasta el 90% de las actualizaciones de parámetros durante el SFT no contribuyen a la mejora del conocimiento. Restaurar estas actualizaciones puede mejorar el rendimiento en la tarea CBQA, dependiendo de las características de los datos de ajuste fino. Estas observaciones ofrecen una guía práctica para desarrollar estrategias de ajuste fino que fortalezcan de manera más efectiva el conocimiento del modelo.
English
Large language models (LLMs) acquire substantial world knowledge during
pre-training, which is further shaped by post-training techniques such as
supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge
remains underexplored, limiting our ability to control knowledge change
behavior in fine-tuned models. To address this gap, we evaluate closed-book
question answering (CBQA) performance across five LLMs from the LLaMA-2 and
LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up
to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying
the level of knowledge mastery in the fine-tuning data leads to performance
fluctuations of over 12%. To investigate these effects, we analyze model
behavior at both the token and parameter levels. Our analysis reveals that up
to 90% of parameter updates during SFT do not contribute to knowledge
enhancement. Restoring these updates can improve performance on the CBQA task,
depending on the characteristics of the fine-tuning data. These insights offer
practical guidance for developing fine-tuning strategies that more effectively
strengthen model knowledge.