Долина логического кода: масштабирование дистилляции знаний в больших языковых моделях

Аннотация

Дистилляция следов мышления крупной языковой модели (LLM) с возможностями логического рассуждения в меньшую модель доказала свою эффективность. Однако существует недостаток исследований о том, как производительность моделей масштабируется в зависимости от объема данных для дистилляции. В данной работе мы изучаем тренд масштабирования при дистилляции навыков конкурентного программирования на двух небольших LLM без способностей к рассуждению. Мы подтверждаем гипотезу о существовании "долины кодового рассуждения": производительность на задачах конкурентного программирования сначала снижается с увеличением объема данных, а затем устойчиво возрастает в более резкой, чем логарифмически линейная, манере. Обнаружив этот тренд, мы дополнительно дообучаем модели на двух различных этапах дистилляции на одних и тех же данных, чтобы сделать выводы о соответствующих фазах их обучения. Мы выясняем, что на этапах с малым и средненизким объемом данных небольшие модели значительно выигрывают от более простых вопросов по программированию, чем от сложных. Мы также обнаруживаем, что, что удивительно, корректность выходных данных в обучающих данных не влияет на результаты дистилляции. Наша работа представляет собой шаг вперед в понимании динамики обучения при дистилляции кодового рассуждения за пределами интуиции.

English

Distilling the thinking traces of a Large Language Model (LLM) with reasoning capabilities into a smaller model has been proven effective. Yet, there is a scarcity of work done on how model performances scale with the quantity of distillation data. In this work, we study the scaling trend of distilling competitive coding skills on two small non-reasoning LLMs. We validate the hypothesis that there is a valley of code reasoning: downstream performance on competitive coding first drops as data quantity increases, then it steadily increases in a sharper-than-log-linear fashion. Having identified the trend, we further fine-tune the models at two different distillation stages on the same data to ground conclusions on their respective learning phases. We learn that across stages in the low and medium-low data regimes, small models benefit significantly from easier coding questions than from harder ones. We also find that, surprisingly, the correctness of outputs in training data makes no difference to distillation outcomes. Our work represents a step forward in understanding the training dynamics of code reasoning distillation outside intuition

Долина логического кода: масштабирование дистилляции знаний в больших языковых моделях

The Valley of Code Reasoning: Scaling Knowledge Distillation of Large Language Models

Аннотация

Support