SIM-CoT: Catena di Pensiero Implicita Supervisionata
SIM-CoT: Supervised Implicit Chain-of-Thought
September 24, 2025
Autori: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI
Abstract
I metodi di Catena di Pensiero Implicita (CoT) rappresentano un'alternativa promettente ed efficiente in termini di token rispetto al ragionamento CoT esplicito nei Modelli Linguistici di Grande Scala (LLMs), ma un persistente divario prestazionale ha limitato l'applicazione della CoT implicita. Identifichiamo un problema centrale di instabilità latente scalando il budget computazionale degli approcci CoT impliciti: all'aumentare del numero di token di ragionamento implicito per migliorare le prestazioni, il processo di addestramento spesso diventa instabile e collassa. La nostra analisi rivela che questa instabilità deriva dalla tendenza delle rappresentazioni latenti a diventare omogenee e a perdere la loro diversità semantica, un fallimento causato da una supervisione insufficiente a livello di passaggio negli attuali approcci CoT impliciti. Per affrontare questo problema, proponiamo SIM-CoT, un modulo di addestramento plug-and-play che introduce una supervisione a livello di passaggio per stabilizzare e arricchire lo spazio di ragionamento latente. Nello specifico, SIM-CoT utilizza un decoder ausiliario durante l'addestramento per allineare ogni token implicito al corrispondente passo di ragionamento esplicito, garantendo che gli stati latenti catturino informazioni distinte e significative. Il decoder ausiliario proposto viene rimosso durante l'inferenza, preservando l'efficienza computazionale dei metodi CoT impliciti senza alcun sovraccarico aggiuntivo. Inoltre, il decoder ausiliario offre interpretabilità del ragionamento implicito proiettando ogni token latente su un vocabolario di ragionamento esplicito, consentendo la visualizzazione per passaggio dei ruoli semantici e la diagnosi. SIM-CoT migliora significativamente sia l'accuratezza in dominio che la stabilità fuori dominio di vari metodi CoT impliciti, aumentando le baseline come Coconut di +8,2% su GPT-2 e CODI di +3,0% su LLaMA-3.1 8B. Dimostrando una forte scalabilità, SIM-CoT supera anche la baseline CoT esplicita su GPT-2 del 2,1% con un'efficienza di token 2,3 volte maggiore, riducendo sostanzialmente il divario prestazionale su modelli più grandi come LLaMA-3.1 8B.
English
Implicit Chain-of-Thought (CoT) methods present a promising, token-efficient
alternative to explicit CoT reasoning in Large Language Models (LLMs), but a
persistent performance gap has limited the application of implicit CoT. We
identify a core latent instability issue by scaling the computational budget of
implicit CoT approaches: as we increase the number of implicit reasoning tokens
to enhance performance, the training process often becomes unstable and
collapses. Our analysis reveals that this instability arises from the latent
representations becoming homogeneous and losing their semantic diversity, a
failure caused by insufficient step-level supervision in existing implicit CoT
approaches. To address this issue, we propose SIM-CoT, a plug-and-play training
module that introduces step-level supervision to stabilize and enrich the
latent reasoning space. Specifically, SIM-CoT employs an auxiliary decoder
during training to align each implicit token with its corresponding explicit
reasoning step, ensuring that latent states capture distinct and meaningful
information. The proposed auxiliary decoder is removed during inference,
preserving the computational efficiency of implicit CoT methods with no added
overhead. In addition, the auxiliary decoder affords interpretability of
implicit reasoning by projecting each latent token onto an explicit reasoning
vocabulary, enabling per-step visualization of semantic roles and diagnosis.
SIM-CoT significantly enhances both the in-domain accuracy and out-of-domain
stability of various implicit CoT methods, boosting baselines like Coconut by
+8.2% on GPT-2 and CODI by +3.0% on LLaMA-3.1 8B. Demonstrating strong
scalability, SIM-CoT also surpasses the explicit CoT baseline on GPT-2 by 2.1%
with 2.3\times greater token efficiency, while substantially closing the
performance gap on larger models like LLaMA-3.1 8B.