Diagnose schädlicher Fortsetzungen in antwortkorrekten Lang-CoT-Trainingsspuren

Zusammenfassung

Lange Chain-of-Thought (CoT)-Spuren werden weithin als Aufsicht für reasoning-orientiertes LLM-SFT verwendet, doch antwortkorrekte Spuren können dennoch zu deutlich unterschiedlichen Feintuning-Ergebnissen führen. Wir untersuchen die Fortsetzung nach der Schlussfolgerung in antwortkorrekten Lang-CoT-Daten: eine Fortsetzung, bei der die Antwort ausreichend gestützt erscheint, die Spur jedoch mit zusätzlichem Reasoning fortfährt, das im überwachten Ziel verbleibt. Um dessen Trainingseffekt zu testen, verwenden wir einen Nur-Löschen-Editor, um eine antwortbewahrende Suffixentfernung zu konstruieren, und vergleichen CoT-basiertes SFT auf den ursprünglichen und den bearbeiteten Spuren. Wir beobachten verbesserte SFT-Ergebnisse nach der Entfernung der durch den Editor identifizierten Fortsetzung nach der Schlussfolgerung, was darauf hindeutet, dass diese Fortsetzung in unserer Umgebung schädlich für das Training ist. Daher bezeichnen wir dieses empirisch gestützte Phänomen als schädliche Fortsetzung. Über diesen Eingriff hinaus charakterisieren wir die entfernte Fortsetzung nach der Schlussfolgerung weiter durch Unsicherheit und Fortschritt des verborgenen Zustands. Wir beobachten eine anhaltende lokale Unsicherheit zusammen mit einem abgeschwächten terminal-direktionalen Fortschritt, was eine Unsicherheits-Geometrie-Diskrepanz bildet. Schließlich instanziieren wir Harmful Continuation Cut (HCC), einen leichtgewichtigen Grenzproxy, der die vom Editor identifizierte Grenze der Fortsetzung nach der Schlussfolgerung approximiert.

English

Long chain-of-thought (CoT) traces are widely used as supervision for reasoning-oriented LLM SFT, yet answer-correct traces can still lead to markedly different fine-tuning outcomes. We study post-conclusion continuation in answer-correct long-CoT data: a continuation where the answer appears sufficiently supported, but the trace continues with additional reasoning that remains in the supervised target. To test its training effect, we use a delete-only editor to construct answer-preserving suffix removal and compare CoT-based SFT on the original and processed traces. We observe improved SFT outcomes after removing the editor-identified post-conclusion continuation, suggesting that this continuation is harmful to training in our setting. We therefore refer to this empirically supported phenomenon as harmful continuation. Beyond this intervention, we further characterize the removed post-conclusion continuation through uncertainty and hidden-state progress. We observe persistent local uncertainty together with weakened terminal-directional progress, forming an uncertainty--geometry mismatch. Finally, we instantiate Harmful Continuation Cut (HCC), a lightweight boundary proxy that approximates the editor-identified post-conclusion continuation boundary.