SemCoT: Aceleração do Raciocínio em Cadeia de Pensamento por meio de Tokens Implícitos Semanticamente Alinhados
SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens
October 28, 2025
Autores: Yinhan He, Wendy Zheng, Yaochen Zhu, Zaiyi Zheng, Lin Su, Sriram Vasudevan, Qi Guo, Liangjie Hong, Jundong Li
cs.AI
Resumo
A verbosidade do raciocínio em Cadeia de Pensamento (CoT) dificulta sua implantação em massa em aplicações críticas para a eficiência. Recentemente, surgiram abordagens de CoT implícito, que codificam as etapas de raciocínio dentro dos embeddings ocultos do LLM (denominado "raciocínio implícito"), em vez de tokens explícitos. Essa abordagem acelera o CoT ao reduzir o comprimento do raciocínio e contornar alguns componentes do LLM. No entanto, os métodos existentes de CoT implícito enfrentam dois desafios significativos: (1) eles falham em preservar o alinhamento semântico entre o raciocínio implícito (quando transformado em linguagem natural) e o raciocínio fundamental verdadeiro (ground-truth), resultando em uma degradação significativa do desempenho do CoT, e (2) eles se concentram em reduzir o comprimento do raciocínio implícito; no entanto, negligenciam o considerável custo de tempo para um LLM gerar um token individual de raciocínio implícito. Para enfrentar esses desafios, propomos uma nova estrutura de CoT implícito semanticamente alinhada, denominada SemCoT. Especificamente, para o primeiro desafio, projetamos um sentence transformer treinado de forma contrastiva que avalia o alinhamento semântico entre o raciocínio implícito e explícito, o qual é usado para impor a preservação semântica durante a otimização do raciocínio implícito. Para abordar o segundo desafio, introduzimos um gerador eficiente de raciocínio implícito por meio do ajuste fino (finetuning) de um modelo de linguagem leve usando destilação de conhecimento. Este gerador é guiado pelo nosso sentence transformer para destilar o raciocínio fundamental verdadeiro em raciocínio implícito semanticamente alinhado, ao mesmo tempo que também otimiza a precisão. A SemCoT é a primeira abordagem que melhora a eficiência do CoT ao otimizar conjuntamente a velocidade de geração em nível de token e preservar o alinhamento semântico com o raciocínio fundamental verdadeiro. Experimentos extensivos demonstram o desempenho superior da SemCoT em comparação com os métodos state-of-the-art em eficiência e eficácia. Nosso código pode ser encontrado em https://github.com/YinhanHe123/SemCoT/.
English
The verbosity of Chain-of-Thought (CoT) reasoning hinders its mass deployment
in efficiency-critical applications. Recently, implicit CoT approaches have
emerged, which encode reasoning steps within LLM's hidden embeddings (termed
``implicit reasoning'') rather than explicit tokens. This approach accelerates
CoT by reducing the reasoning length and bypassing some LLM components.
However, existing implicit CoT methods face two significant challenges: (1)
they fail to preserve the semantic alignment between the implicit reasoning
(when transformed to natural language) and the ground-truth reasoning,
resulting in a significant CoT performance degradation, and (2) they focus on
reducing the length of the implicit reasoning; however, they neglect the
considerable time cost for an LLM to generate one individual implicit reasoning
token. To tackle these challenges, we propose a novel semantically-aligned
implicit CoT framework termed SemCoT. In particular, for the first challenge,
we design a contrastively trained sentence transformer that evaluates semantic
alignment between implicit and explicit reasoning, which is used to enforce
semantic preservation during implicit reasoning optimization. To address the
second challenge, we introduce an efficient implicit reasoning generator by
finetuning a lightweight language model using knowledge distillation. This
generator is guided by our sentence transformer to distill ground-truth
reasoning into semantically aligned implicit reasoning, while also optimizing
for accuracy. SemCoT is the first approach that enhances CoT efficiency by
jointly optimizing token-level generation speed and preserving semantic
alignment with ground-truth reasoning. Extensive experiments demonstrate the
superior performance of SemCoT compared to state-of-the-art methods in both
efficiency and effectiveness. Our code can be found at
https://github.com/YinhanHe123/SemCoT/.