SIM-CoT : Chaîne de Pensée Implicite Supervisée
SIM-CoT: Supervised Implicit Chain-of-Thought
September 24, 2025
papers.authors: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI
papers.abstract
Les méthodes de raisonnement en chaîne de pensée implicite (CoT) offrent une alternative prometteuse et économe en tokens au raisonnement CoT explicite dans les grands modèles de langage (LLMs). Cependant, un écart de performance persistant a limité l'application de la CoT implicite. Nous identifions un problème central d'instabilité latente en augmentant le budget computationnel des approches CoT implicites : à mesure que nous augmentons le nombre de tokens de raisonnement implicite pour améliorer les performances, le processus d'entraînement devient souvent instable et s'effondre. Notre analyse révèle que cette instabilité provient de l'homogénéisation des représentations latentes et de la perte de leur diversité sémantique, un échec causé par une supervision insuffisante au niveau des étapes dans les approches CoT implicites existantes. Pour résoudre ce problème, nous proposons SIM-CoT, un module d'entraînement plug-and-play qui introduit une supervision au niveau des étapes pour stabiliser et enrichir l'espace de raisonnement latent. Concrètement, SIM-CoT utilise un décodeur auxiliaire pendant l'entraînement pour aligner chaque token implicite avec son étape de raisonnement explicite correspondante, garantissant que les états latents capturent des informations distinctes et significatives. Le décodeur auxiliaire proposé est retiré lors de l'inférence, préservant ainsi l'efficacité computationnelle des méthodes CoT implicites sans surcoût supplémentaire. De plus, le décodeur auxiliaire permet une interprétabilité du raisonnement implicite en projetant chaque token latent sur un vocabulaire de raisonnement explicite, permettant une visualisation étape par étape des rôles sémantiques et un diagnostic. SIM-CoT améliore significativement à la fois la précision en domaine et la stabilité hors domaine de diverses méthodes CoT implicites, augmentant les performances de bases comme Coconut de +8,2 % sur GPT-2 et CODI de +3,0 % sur LLaMA-3.1 8B. Démontrant une forte scalabilité, SIM-CoT dépasse également la base de référence CoT explicite sur GPT-2 de 2,1 % avec une efficacité en tokens 2,3 fois supérieure, tout en réduisant considérablement l'écart de performance sur des modèles plus grands comme LLaMA-3.1 8B.
English
Implicit Chain-of-Thought (CoT) methods present a promising, token-efficient
alternative to explicit CoT reasoning in Large Language Models (LLMs), but a
persistent performance gap has limited the application of implicit CoT. We
identify a core latent instability issue by scaling the computational budget of
implicit CoT approaches: as we increase the number of implicit reasoning tokens
to enhance performance, the training process often becomes unstable and
collapses. Our analysis reveals that this instability arises from the latent
representations becoming homogeneous and losing their semantic diversity, a
failure caused by insufficient step-level supervision in existing implicit CoT
approaches. To address this issue, we propose SIM-CoT, a plug-and-play training
module that introduces step-level supervision to stabilize and enrich the
latent reasoning space. Specifically, SIM-CoT employs an auxiliary decoder
during training to align each implicit token with its corresponding explicit
reasoning step, ensuring that latent states capture distinct and meaningful
information. The proposed auxiliary decoder is removed during inference,
preserving the computational efficiency of implicit CoT methods with no added
overhead. In addition, the auxiliary decoder affords interpretability of
implicit reasoning by projecting each latent token onto an explicit reasoning
vocabulary, enabling per-step visualization of semantic roles and diagnosis.
SIM-CoT significantly enhances both the in-domain accuracy and out-of-domain
stability of various implicit CoT methods, boosting baselines like Coconut by
+8.2% on GPT-2 and CODI by +3.0% on LLaMA-3.1 8B. Demonstrating strong
scalability, SIM-CoT also surpasses the explicit CoT baseline on GPT-2 by 2.1%
with 2.3\times greater token efficiency, while substantially closing the
performance gap on larger models like LLaMA-3.1 8B.