Diagnóstico de Continuação Prejudicial em Traços de Treinamento de Long-CoT com Respostas Corretas

Resumo

Traços longos de cadeia de pensamento (CoT) são amplamente utilizados como supervisão para SFT de LLM orientado a raciocínio, porém traços com respostas corretas ainda podem levar a resultados de fine-tuning marcadamente diferentes. Estudamos a continuação pós-conclusão em dados longos de CoT com respostas corretas: uma continuação na qual a resposta aparece suficientemente fundamentada, mas o traço continua com raciocínio adicional que permanece no alvo supervisionado. Para testar seu efeito no treinamento, utilizamos um editor apenas de exclusão para construir uma remoção de sufixo que preserva a resposta e comparamos o SFT baseado em CoT nos traços originais e processados. Observamos melhores resultados de SFT após a remoção da continuação pós-conclusão identificada pelo editor, sugerindo que essa continuação é prejudicial ao treinamento em nosso cenário. Portanto, denominamos esse fenômeno empiricamente suportado como continuação prejudicial. Além dessa intervenção, caracterizamos ainda a continuação pós-conclusão removida por meio de incerteza e progresso do estado oculto. Observamos incerteza local persistente juntamente com progresso direcional terminal enfraquecido, formando uma incompatibilidade entre incerteza e geometria. Finalmente, implementamos o Corte de Continuação Prejudicial (HCC), um proxy de limite leve que aproxima o limite da continuação pós-conclusão identificado pelo editor.

English

Long chain-of-thought (CoT) traces are widely used as supervision for reasoning-oriented LLM SFT, yet answer-correct traces can still lead to markedly different fine-tuning outcomes. We study post-conclusion continuation in answer-correct long-CoT data: a continuation where the answer appears sufficiently supported, but the trace continues with additional reasoning that remains in the supervised target. To test its training effect, we use a delete-only editor to construct answer-preserving suffix removal and compare CoT-based SFT on the original and processed traces. We observe improved SFT outcomes after removing the editor-identified post-conclusion continuation, suggesting that this continuation is harmful to training in our setting. We therefore refer to this empirically supported phenomenon as harmful continuation. Beyond this intervention, we further characterize the removed post-conclusion continuation through uncertainty and hidden-state progress. We observe persistent local uncertainty together with weakened terminal-directional progress, forming an uncertainty--geometry mismatch. Finally, we instantiate Harmful Continuation Cut (HCC), a lightweight boundary proxy that approximates the editor-identified post-conclusion continuation boundary.