Diagnóstico de Continuación Dañina en Trazas de Entrenamiento de Long-CoT con Respuestas Correctas

Resumen

Las trazas largas de cadena de pensamiento (CoT) se utilizan ampliamente como supervisión para el ajuste fino supervisado (SFT) de LLM orientado al razonamiento, sin embargo, las trazas con respuesta correcta pueden conducir a resultados de ajuste fino notablemente diferentes. Estudiamos la continuación posterior a la conclusión en datos largos de CoT con respuesta correcta: una continuación donde la respuesta parece suficientemente respaldada, pero la traza continúa con razonamiento adicional que permanece en el objetivo supervisado. Para probar su efecto en el entrenamiento, utilizamos un editor de solo eliminación para construir una eliminación de sufijo que preserva la respuesta y comparamos el SFT basado en CoT en las trazas originales y procesadas. Observamos mejores resultados de SFT después de eliminar la continuación posterior a la conclusión identificada por el editor, lo que sugiere que esta continuación es perjudicial para el entrenamiento en nuestro contexto. Por lo tanto, denominamos a este fenómeno respaldado empíricamente como continuación perjudicial. Más allá de esta intervención, caracterizamos además la continuación posterior a la conclusión eliminada mediante incertidumbre y progreso del estado oculto. Observamos una incertidumbre local persistente junto con un progreso direccional terminal debilitado, formando un desajuste entre incertidumbre y geometría. Finalmente, implementamos el Corte de Continuación Perjudicial (HCC), un proxy de límite ligero que aproxima el límite de la continuación posterior a la conclusión identificado por el editor.

English

Long chain-of-thought (CoT) traces are widely used as supervision for reasoning-oriented LLM SFT, yet answer-correct traces can still lead to markedly different fine-tuning outcomes. We study post-conclusion continuation in answer-correct long-CoT data: a continuation where the answer appears sufficiently supported, but the trace continues with additional reasoning that remains in the supervised target. To test its training effect, we use a delete-only editor to construct answer-preserving suffix removal and compare CoT-based SFT on the original and processed traces. We observe improved SFT outcomes after removing the editor-identified post-conclusion continuation, suggesting that this continuation is harmful to training in our setting. We therefore refer to this empirically supported phenomenon as harmful continuation. Beyond this intervention, we further characterize the removed post-conclusion continuation through uncertainty and hidden-state progress. We observe persistent local uncertainty together with weakened terminal-directional progress, forming an uncertainty--geometry mismatch. Finally, we instantiate Harmful Continuation Cut (HCC), a lightweight boundary proxy that approximates the editor-identified post-conclusion continuation boundary.