SIM-CoT: Cadena de Pensamiento Implícita Supervisada
SIM-CoT: Supervised Implicit Chain-of-Thought
September 24, 2025
Autores: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI
Resumen
Los métodos de Cadena de Pensamiento Implícita (CoT) presentan una alternativa prometedora y eficiente en términos de tokens al razonamiento CoT explícito en Modelos de Lenguaje a Gran Escala (LLMs), pero una brecha persistente en el rendimiento ha limitado su aplicación. Identificamos un problema central de inestabilidad latente al escalar el presupuesto computacional de los enfoques CoT implícitos: a medida que aumentamos el número de tokens de razonamiento implícito para mejorar el rendimiento, el proceso de entrenamiento a menudo se vuelve inestable y colapsa. Nuestro análisis revela que esta inestabilidad surge de que las representaciones latentes se vuelven homogéneas y pierden su diversidad semántica, un fallo causado por la supervisión insuficiente a nivel de paso en los enfoques CoT implícitos existentes. Para abordar este problema, proponemos SIM-CoT, un módulo de entrenamiento plug-and-play que introduce supervisión a nivel de paso para estabilizar y enriquecer el espacio de razonamiento latente. Específicamente, SIM-CoT emplea un decodificador auxiliar durante el entrenamiento para alinear cada token implícito con su correspondiente paso de razonamiento explícito, asegurando que los estados latentes capturen información distinta y significativa. El decodificador auxiliar propuesto se elimina durante la inferencia, preservando la eficiencia computacional de los métodos CoT implícitos sin añadir sobrecarga. Además, el decodificador auxiliar proporciona interpretabilidad del razonamiento implícito al proyectar cada token latente en un vocabulario de razonamiento explícito, permitiendo la visualización paso a paso de roles semánticos y diagnóstico. SIM-CoT mejora significativamente tanto la precisión dentro del dominio como la estabilidad fuera del dominio de varios métodos CoT implícitos, aumentando líneas base como Coconut en un +8.2% en GPT-2 y CODI en un +3.0% en LLaMA-3.1 8B. Demostrando una fuerte escalabilidad, SIM-CoT también supera la línea base CoT explícita en GPT-2 en un 2.1% con una eficiencia de tokens 2.3 veces mayor, mientras cierra sustancialmente la brecha de rendimiento en modelos más grandes como LLaMA-3.1 8B.
English
Implicit Chain-of-Thought (CoT) methods present a promising, token-efficient
alternative to explicit CoT reasoning in Large Language Models (LLMs), but a
persistent performance gap has limited the application of implicit CoT. We
identify a core latent instability issue by scaling the computational budget of
implicit CoT approaches: as we increase the number of implicit reasoning tokens
to enhance performance, the training process often becomes unstable and
collapses. Our analysis reveals that this instability arises from the latent
representations becoming homogeneous and losing their semantic diversity, a
failure caused by insufficient step-level supervision in existing implicit CoT
approaches. To address this issue, we propose SIM-CoT, a plug-and-play training
module that introduces step-level supervision to stabilize and enrich the
latent reasoning space. Specifically, SIM-CoT employs an auxiliary decoder
during training to align each implicit token with its corresponding explicit
reasoning step, ensuring that latent states capture distinct and meaningful
information. The proposed auxiliary decoder is removed during inference,
preserving the computational efficiency of implicit CoT methods with no added
overhead. In addition, the auxiliary decoder affords interpretability of
implicit reasoning by projecting each latent token onto an explicit reasoning
vocabulary, enabling per-step visualization of semantic roles and diagnosis.
SIM-CoT significantly enhances both the in-domain accuracy and out-of-domain
stability of various implicit CoT methods, boosting baselines like Coconut by
+8.2% on GPT-2 and CODI by +3.0% on LLaMA-3.1 8B. Demonstrating strong
scalability, SIM-CoT also surpasses the explicit CoT baseline on GPT-2 by 2.1%
with 2.3\times greater token efficiency, while substantially closing the
performance gap on larger models like LLaMA-3.1 8B.