Анализ влияния контролируемой тонкой настройки на знания модели на уровне токенов и параметров
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
September 20, 2025
Авторы: Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan
cs.AI
Аннотация
Крупные языковые модели (LLM) приобретают значительные знания о мире в процессе предварительного обучения, которые затем уточняются с помощью методов пост-обучения, таких как контролируемое тонкое настройка (SFT). Однако влияние SFT на знания модели остается недостаточно изученным, что ограничивает нашу способность контролировать изменения знаний в тонко настроенных моделях. Чтобы устранить этот пробел, мы оцениваем производительность в задаче закрытого книжного ответа на вопросы (CBQA) для пяти моделей из семейств LLaMA-2 и LLaMA-3. Удивительно, но модели, настроенные на 1920 образцах, показывают результаты до 14% хуже, чем те, которые были настроены всего на 240 образцах. Кроме того, изменение уровня владения знаниями в данных для тонкой настройки приводит к колебаниям производительности более чем на 12%. Чтобы исследовать эти эффекты, мы анализируем поведение модели как на уровне токенов, так и на уровне параметров. Наш анализ показывает, что до 90% обновлений параметров во время SFT не способствуют улучшению знаний. Восстановление этих обновлений может улучшить производительность в задаче CBQA в зависимости от характеристик данных для тонкой настройки. Эти выводы предлагают практические рекомендации для разработки стратегий тонкой настройки, которые более эффективно укрепляют знания модели.
English
Large language models (LLMs) acquire substantial world knowledge during
pre-training, which is further shaped by post-training techniques such as
supervised fine-tuning (SFT). However, the impact of SFT on a model's knowledge
remains underexplored, limiting our ability to control knowledge change
behavior in fine-tuned models. To address this gap, we evaluate closed-book
question answering (CBQA) performance across five LLMs from the LLaMA-2 and
LLaMA-3 families. Surprisingly, models fine-tuned on 1,920 samples perform up
to 14% worse than those fine-tuned on only 240 samples. Furthermore, varying
the level of knowledge mastery in the fine-tuning data leads to performance
fluctuations of over 12%. To investigate these effects, we analyze model
behavior at both the token and parameter levels. Our analysis reveals that up
to 90% of parameter updates during SFT do not contribute to knowledge
enhancement. Restoring these updates can improve performance on the CBQA task,
depending on the characteristics of the fine-tuning data. These insights offer
practical guidance for developing fine-tuning strategies that more effectively
strengthen model knowledge.