Diagnostic de la continuation nuisible dans les traces d'entraînement Long-CoT à réponses correctes

Résumé

Les longues traces de chaîne de pensée (CoT) sont largement utilisées comme supervision pour le SFT des LLM orienté raisonnement, pourtant des traces avec réponse correcte peuvent conduire à des résultats de fine-tuning sensiblement différents. Nous étudions la continuation post-conclusion dans les données longues CoT avec réponse correcte : une continuation où la réponse apparaît suffisamment étayée, mais où la trace se poursuit avec un raisonnement supplémentaire qui reste dans la cible supervisée. Pour tester son effet sur l'entraînement, nous utilisons un éditeur de suppression uniquement afin de construire une suppression de suffixe préservant la réponse, et nous comparons le SFT basé sur CoT sur les traces originales et traitées. Nous observons une amélioration des résultats du SFT après suppression de la continuation post-conclusion identifiée par l'éditeur, ce qui suggère que cette continuation est nuisible à l'entraînement dans notre cadre. Nous désignons donc ce phénomène empiriquement documenté comme la continuation nuisible. Au-delà de cette intervention, nous caractérisons plus avant la continuation post-conclusion supprimée par le biais de l'incertitude et de la progression de l'état caché. Nous observons une incertitude locale persistante associée à une progression directionnelle terminale affaiblie, formant un décalage incertitude–géométrie. Enfin, nous instancions le Harmful Continuation Cut (HCC), un proxy de frontière léger qui approxime la frontière de continuation post-conclusion identifiée par l'éditeur.

English

Long chain-of-thought (CoT) traces are widely used as supervision for reasoning-oriented LLM SFT, yet answer-correct traces can still lead to markedly different fine-tuning outcomes. We study post-conclusion continuation in answer-correct long-CoT data: a continuation where the answer appears sufficiently supported, but the trace continues with additional reasoning that remains in the supervised target. To test its training effect, we use a delete-only editor to construct answer-preserving suffix removal and compare CoT-based SFT on the original and processed traces. We observe improved SFT outcomes after removing the editor-identified post-conclusion continuation, suggesting that this continuation is harmful to training in our setting. We therefore refer to this empirically supported phenomenon as harmful continuation. Beyond this intervention, we further characterize the removed post-conclusion continuation through uncertainty and hidden-state progress. We observe persistent local uncertainty together with weakened terminal-directional progress, forming an uncertainty--geometry mismatch. Finally, we instantiate Harmful Continuation Cut (HCC), a lightweight boundary proxy that approximates the editor-identified post-conclusion continuation boundary.