Waarom verliezen redeneermodellen dekking? De rol van data en vertakkingen in de weg

Samenvatting

Recent vooruitgang in grote taalmodellen heeft geleid tot de opkomst van redeneermodellen, die sterke prestaties laten zien op complexe taken door gespecialiseerde fine-tuningprocedures. Hoewel deze methoden op betrouwbare wijze de pass@1-nauwkeurigheid verbeteren, hebben eerdere studies waargenomen dat ze een dekkingskrimpgedrag vertonen, waarbij pass@k afneemt ten opzichte van het basismodel. In dit artikel onderzoeken we waarom redeneerkrimp optreedt bij SFT-gebaseerde nabehandelingstraining. We veronderstellen dat dit gedrag wordt gedreven door eigenschappen van de fine-tuninggegevens, met name met betrekking tot beslispunten of 'vorken in de weg'-scenario's waarbij het model wordt geconfronteerd met onontcijferbare patronen met meerdere geldige redeneerpaden. Om deze hypothese te testen, ontwerpen we gecontroleerde casestudies die dergelijke beslispuntinstellingen simuleren, variërend van onontcijferbare knooppunten in graaftakkingen tot redeneermodi. Door de dynamiek na training in deze instellingen te volgen, vinden we dat het krimpfenomeen nauw gecorreleerd is met de prevalentie van beslispuntscenario's in de trainingsdata. We tonen ook aan dat dit krimpgedrag gedeeltelijk kan worden verminderd door gericht ontwerp van gegevenssynthese van beslispunten en een meer systematisch diversiteitsbevorderend decoderingmechanisme. Onze bevindingen identificeren data-gerichte factoren als een belangrijke drijver van krimp in redeneermodellen en benadrukken diversiteitsbewuste ontwerpen als een effectieve hefboom om dit te beheersen.

English

Recent progress in large language models has led to the emergence of reasoning models, which have shown strong performance on complex tasks through specialized fine-tuning procedures. While these methods reliably improve pass@1 accuracy, prior works have observed that they show a coverage shrinkage behavior, where pass@k degrades relative to the base model. In this paper, we investigate the reasoning shrinkage arise under SFT-based post-training. We hypothesize that this behavior is driven by properties of the fine-tuning data, specifically related to decision points or "forks in the road" scenarios where model faces indecipherable patterns with multiple valid reasoning paths. To test this hypothesis, we design controlled case studies that simulate such decision-point settings, spanning indecipherable nodes in graph branching, and reasoning modes. By tracking post-training dynamics in these settings, we find that the shrinkage phenomenon is tightly correlated with the prevalence of decision-point scenarios in the training data. We also demonstrate that this shrinkage behavior can be partially mitigated through targeted data synthesis design of decision-points, and a more systematic diversity-encouraging decoding mechanism. Our findings identify data-centric factors as a key driver of shrinkage in reasoning models and highlight diversity-aware designs as an effective lever for controlling it.