Pourquoi les modèles de raisonnement perdent-ils leur couverture ? Le rôle des données et des bifurcations

Résumé

Les récents progrès des grands modèles de langage ont conduit à l'émergence de modèles de raisonnement, qui démontrent de solides performances sur des tâches complexes grâce à des procédures d'ajustement fin spécialisées. Bien que ces méthodes améliorent de manière fiable la précision pass@1, des travaux antérieurs ont observé qu'elles présentent un comportement de rétrécissement de la couverture, où le pass@k se dégrade par rapport au modèle de base. Dans cet article, nous étudions l'origine du rétrécissement du raisonnement dans le cadre du post-entraînement basé sur SFT. Nous émettons l'hypothèse que ce comportement est motivé par les propriétés des données d'ajustement fin, en particulier en ce qui concerne les points de décision ou les scénarios de « bifurcations » où le modèle est confronté à des modèles indéchiffrables avec plusieurs chemins de raisonnement valides. Pour tester cette hypothèse, nous concevons des études de cas contrôlées qui simulent de tels contextes de points de décision, couvrant des nœuds indéchiffrables dans le branchement de graphes et les modes de raisonnement. En suivant la dynamique du post-entraînement dans ces contextes, nous constatons que le phénomène de rétrécissement est étroitement corrélé à la prévalence de scénarios de points de décision dans les données d'entraînement. Nous démontrons également que ce comportement de rétrécissement peut être partiellement atténué grâce à une conception ciblée de synthèse de données des points de décision et à un mécanisme de décodage systématique favorisant la diversité. Nos résultats identifient les facteurs centrés sur les données comme un moteur clé du rétrécissement dans les modèles de raisonnement et soulignent les conceptions sensibles à la diversité comme un levier efficace pour le contrôler.

English

Recent progress in large language models has led to the emergence of reasoning models, which have shown strong performance on complex tasks through specialized fine-tuning procedures. While these methods reliably improve pass@1 accuracy, prior works have observed that they show a coverage shrinkage behavior, where pass@k degrades relative to the base model. In this paper, we investigate the reasoning shrinkage arise under SFT-based post-training. We hypothesize that this behavior is driven by properties of the fine-tuning data, specifically related to decision points or "forks in the road" scenarios where model faces indecipherable patterns with multiple valid reasoning paths. To test this hypothesis, we design controlled case studies that simulate such decision-point settings, spanning indecipherable nodes in graph branching, and reasoning modes. By tracking post-training dynamics in these settings, we find that the shrinkage phenomenon is tightly correlated with the prevalence of decision-point scenarios in the training data. We also demonstrate that this shrinkage behavior can be partially mitigated through targeted data synthesis design of decision-points, and a more systematic diversity-encouraging decoding mechanism. Our findings identify data-centric factors as a key driver of shrinkage in reasoning models and highlight diversity-aware designs as an effective lever for controlling it.