SIM-CoT: Cadeia de Pensamento Implícita Supervisionada
SIM-CoT: Supervised Implicit Chain-of-Thought
September 24, 2025
Autores: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI
Resumo
Os métodos de Cadeia de Pensamento Implícita (CoT) apresentam uma alternativa promissora e eficiente em termos de tokens ao raciocínio CoT explícito em Modelos de Linguagem de Grande Escala (LLMs), mas uma lacuna persistente de desempenho tem limitado a aplicação do CoT implícito. Identificamos um problema central de instabilidade latente ao escalar o orçamento computacional das abordagens de CoT implícita: à medida que aumentamos o número de tokens de raciocínio implícito para melhorar o desempenho, o processo de treinamento frequentemente se torna instável e colapsa. Nossa análise revela que essa instabilidade surge das representações latentes se tornarem homogêneas e perderem sua diversidade semântica, uma falha causada pela supervisão insuficiente em nível de etapa nas abordagens existentes de CoT implícita. Para resolver esse problema, propomos o SIM-CoT, um módulo de treinamento plug-and-play que introduz supervisão em nível de etapa para estabilizar e enriquecer o espaço de raciocínio latente. Especificamente, o SIM-CoT emprega um decodificador auxiliar durante o treinamento para alinhar cada token implícito com sua etapa de raciocínio explícita correspondente, garantindo que os estados latentes capturem informações distintas e significativas. O decodificador auxiliar proposto é removido durante a inferência, preservando a eficiência computacional dos métodos de CoT implícita sem custo adicional. Além disso, o decodificador auxiliar proporciona interpretabilidade do raciocínio implícito ao projetar cada token latente em um vocabulário de raciocínio explícito, permitindo a visualização por etapa dos papéis semânticos e o diagnóstico. O SIM-CoT melhora significativamente tanto a precisão dentro do domínio quanto a estabilidade fora do domínio de vários métodos de CoT implícita, impulsionando baselines como o Coconut em +8,2% no GPT-2 e o CODI em +3,0% no LLaMA-3.1 8B. Demonstrando forte escalabilidade, o SIM-CoT também supera a baseline de CoT explícita no GPT-2 em 2,1% com 2,3× maior eficiência de tokens, enquanto reduz substancialmente a lacuna de desempenho em modelos maiores como o LLaMA-3.1 8B.
English
Implicit Chain-of-Thought (CoT) methods present a promising, token-efficient
alternative to explicit CoT reasoning in Large Language Models (LLMs), but a
persistent performance gap has limited the application of implicit CoT. We
identify a core latent instability issue by scaling the computational budget of
implicit CoT approaches: as we increase the number of implicit reasoning tokens
to enhance performance, the training process often becomes unstable and
collapses. Our analysis reveals that this instability arises from the latent
representations becoming homogeneous and losing their semantic diversity, a
failure caused by insufficient step-level supervision in existing implicit CoT
approaches. To address this issue, we propose SIM-CoT, a plug-and-play training
module that introduces step-level supervision to stabilize and enrich the
latent reasoning space. Specifically, SIM-CoT employs an auxiliary decoder
during training to align each implicit token with its corresponding explicit
reasoning step, ensuring that latent states capture distinct and meaningful
information. The proposed auxiliary decoder is removed during inference,
preserving the computational efficiency of implicit CoT methods with no added
overhead. In addition, the auxiliary decoder affords interpretability of
implicit reasoning by projecting each latent token onto an explicit reasoning
vocabulary, enabling per-step visualization of semantic roles and diagnosis.
SIM-CoT significantly enhances both the in-domain accuracy and out-of-domain
stability of various implicit CoT methods, boosting baselines like Coconut by
+8.2% on GPT-2 and CODI by +3.0% on LLaMA-3.1 8B. Demonstrating strong
scalability, SIM-CoT also surpasses the explicit CoT baseline on GPT-2 by 2.1%
with 2.3\times greater token efficiency, while substantially closing the
performance gap on larger models like LLaMA-3.1 8B.