Долина логического кода: масштабирование дистилляции знаний в больших языковых моделях
The Valley of Code Reasoning: Scaling Knowledge Distillation of Large Language Models
October 7, 2025
Авторы: Muyu He, Muhammad Ali Shafique, Anand Kumar, Tsach Mackey, Nazneen Rajani
cs.AI
Аннотация
Дистилляция следов мышления крупной языковой модели (LLM) с возможностями логического рассуждения в меньшую модель доказала свою эффективность. Однако существует недостаток исследований о том, как производительность моделей масштабируется в зависимости от объема данных для дистилляции. В данной работе мы изучаем тренд масштабирования при дистилляции навыков конкурентного программирования на двух небольших LLM без способностей к рассуждению. Мы подтверждаем гипотезу о существовании "долины кодового рассуждения": производительность на задачах конкурентного программирования сначала снижается с увеличением объема данных, а затем устойчиво возрастает в более резкой, чем логарифмически линейная, манере. Обнаружив этот тренд, мы дополнительно дообучаем модели на двух различных этапах дистилляции на одних и тех же данных, чтобы сделать выводы о соответствующих фазах их обучения. Мы выясняем, что на этапах с малым и средненизким объемом данных небольшие модели значительно выигрывают от более простых вопросов по программированию, чем от сложных. Мы также обнаруживаем, что, что удивительно, корректность выходных данных в обучающих данных не влияет на результаты дистилляции. Наша работа представляет собой шаг вперед в понимании динамики обучения при дистилляции кодового рассуждения за пределами интуиции.
English
Distilling the thinking traces of a Large Language Model (LLM) with reasoning
capabilities into a smaller model has been proven effective. Yet, there is a
scarcity of work done on how model performances scale with the quantity of
distillation data. In this work, we study the scaling trend of distilling
competitive coding skills on two small non-reasoning LLMs. We validate the
hypothesis that there is a valley of code reasoning: downstream
performance on competitive coding first drops as data quantity increases, then
it steadily increases in a sharper-than-log-linear fashion. Having identified
the trend, we further fine-tune the models at two different distillation stages
on the same data to ground conclusions on their respective learning phases. We
learn that across stages in the low and medium-low data regimes, small models
benefit significantly from easier coding questions than from harder ones. We
also find that, surprisingly, the correctness of outputs in training data makes
no difference to distillation outcomes. Our work represents a step forward in
understanding the training dynamics of code reasoning distillation outside
intuition