ChatPaper.aiChatPaper

La Vallée du Raisonnement par Code : Mise à l'échelle de la Distillation des Connaissances des Grands Modèles de Langage

The Valley of Code Reasoning: Scaling Knowledge Distillation of Large Language Models

October 7, 2025
papers.authors: Muyu He, Muhammad Ali Shafique, Anand Kumar, Tsach Mackey, Nazneen Rajani
cs.AI

papers.abstract

Distiller les traces de pensée d'un modèle de langage de grande taille (LLM) doté de capacités de raisonnement dans un modèle plus petit s'est avéré efficace. Cependant, il existe un manque de travaux sur la manière dont les performances des modèles évoluent en fonction de la quantité de données de distillation. Dans cette étude, nous examinons la tendance de mise à l'échelle de la distillation de compétences en programmation compétitive sur deux petits LLM non raisonnants. Nous validons l'hypothèse selon laquelle il existe une vallée du raisonnement en code : les performances en aval sur la programmation compétitive diminuent d'abord à mesure que la quantité de données augmente, puis augmentent de manière plus rapide qu'une progression log-linéaire. Après avoir identifié cette tendance, nous affinons davantage les modèles à deux étapes différentes de distillation sur les mêmes données pour étayer les conclusions sur leurs phases d'apprentissage respectives. Nous constatons qu'à travers les étapes dans les régimes de données faibles et moyennement faibles, les petits modèles bénéficient significativement de questions de codage plus faciles que de questions plus difficiles. Nous découvrons également, de manière surprenante, que la correction des sorties dans les données d'entraînement n'a aucun impact sur les résultats de la distillation. Notre travail représente une avancée dans la compréhension des dynamiques d'entraînement de la distillation du raisonnement en code au-delà de l'intuition.
English
Distilling the thinking traces of a Large Language Model (LLM) with reasoning capabilities into a smaller model has been proven effective. Yet, there is a scarcity of work done on how model performances scale with the quantity of distillation data. In this work, we study the scaling trend of distilling competitive coding skills on two small non-reasoning LLMs. We validate the hypothesis that there is a valley of code reasoning: downstream performance on competitive coding first drops as data quantity increases, then it steadily increases in a sharper-than-log-linear fashion. Having identified the trend, we further fine-tune the models at two different distillation stages on the same data to ground conclusions on their respective learning phases. We learn that across stages in the low and medium-low data regimes, small models benefit significantly from easier coding questions than from harder ones. We also find that, surprisingly, the correctness of outputs in training data makes no difference to distillation outcomes. Our work represents a step forward in understanding the training dynamics of code reasoning distillation outside intuition
PDF02October 8, 2025