Warum verlieren Reasoning-Modelle an Abdeckung? Die Rolle von Daten und Wegegabelungen

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen haben zur Entstehung von Reasoning-Modellen geführt, die durch spezialisierte Feinabstimmungsverfahren eine starke Leistung bei komplexen Aufgaben zeigen. Während diese Methoden zuverlässig die Pass@1-Genauigkeit verbessern, wurde in früheren Arbeiten beobachtet, dass sie ein Coverage-Schrumpfungsverhalten aufweisen, bei dem die Pass@k-Leistung im Vergleich zum Basismodell abnimmt. In diesem Beitrag untersuchen wir, wie die Reasoning-Schrumpfung im Rahmen eines SFT-basierten Post-Trainings entsteht. Wir stellen die Hypothese auf, dass dieses Verhalten durch Eigenschaften der Feinabstimmungsdaten bedingt ist, insbesondere im Zusammenhang mit Entscheidungspunkten oder „Weggabelungen“-Szenarien, in denen das Modell auf nicht entzifferbare Muster mit mehreren gültigen Denkpfaden stößt. Um diese Hypothese zu testen, entwerfen wir kontrollierte Fallstudien, die solche Entscheidungspunktsituationen simulieren, und zwar sowohl bei Graphverzweigungen mit nicht entzifferbaren Knoten als auch bei Reasoning-Modi. Durch die Verfolgung der Post-Training-Dynamik in diesen Umgebungen stellen wir fest, dass das Schrumpfungsphänomen eng mit der Prävalenz von Entscheidungspunktszenarien in den Trainingsdaten korreliert. Wir zeigen außerdem, dass dieses Schrumpfungsverhalten teilweise durch ein gezieltes Datensynthese-Design von Entscheidungspunkten und einen stärker diversitätsfördernden Dekodierungsmechanismus abgemildert werden kann. Unsere Ergebnisse identifizieren datenzentrische Faktoren als einen Haupttreiber der Schrumpfung in Reasoning-Modellen und heben diversitätsbewusste Designs als wirksamen Hebel zu deren Kontrolle hervor.

English

Recent progress in large language models has led to the emergence of reasoning models, which have shown strong performance on complex tasks through specialized fine-tuning procedures. While these methods reliably improve pass@1 accuracy, prior works have observed that they show a coverage shrinkage behavior, where pass@k degrades relative to the base model. In this paper, we investigate the reasoning shrinkage arise under SFT-based post-training. We hypothesize that this behavior is driven by properties of the fine-tuning data, specifically related to decision points or "forks in the road" scenarios where model faces indecipherable patterns with multiple valid reasoning paths. To test this hypothesis, we design controlled case studies that simulate such decision-point settings, spanning indecipherable nodes in graph branching, and reasoning modes. By tracking post-training dynamics in these settings, we find that the shrinkage phenomenon is tightly correlated with the prevalence of decision-point scenarios in the training data. We also demonstrate that this shrinkage behavior can be partially mitigated through targeted data synthesis design of decision-points, and a more systematic diversity-encouraging decoding mechanism. Our findings identify data-centric factors as a key driver of shrinkage in reasoning models and highlight diversity-aware designs as an effective lever for controlling it.