SoftCoT++: Escalonamento em Tempo de Teste com Raciocínio de Cadeia de Pensamento Suave
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
May 16, 2025
Autores: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao
cs.AI
Resumo
O Escalonamento em Tempo de Teste (Test-Time Scaling, TTS) refere-se a abordagens que melhoram o desempenho de raciocínio ao alocar computação adicional durante a inferência, sem alterar os parâmetros do modelo. Enquanto os métodos existentes de TTS operam em um espaço discreto de tokens, gerando mais etapas intermediárias, estudos recentes no Coconut e SoftCoT demonstraram que pensar no espaço latente contínuo pode aprimorar ainda mais o desempenho de raciocínio. Tais pensamentos latentes codificam raciocínios informativos sem a perda de informação associada à geração autoregressiva de tokens, despertando um interesse crescente no raciocínio em espaço contínuo. Diferente da decodificação discreta, onde a amostragem repetida permite explorar diversos caminhos de raciocínio, as representações latentes no espaço contínuo são fixas para uma dada entrada, o que limita a exploração diversificada, já que todos os caminhos decodificados se originam do mesmo pensamento latente. Para superar essa limitação, introduzimos o SoftCoT++ para estender o SoftCoT ao paradigma de Escalonamento em Tempo de Teste, permitindo uma exploração diversificada de caminhos de pensamento. Especificamente, perturbamos pensamentos latentes por meio de múltiplos tokens iniciais especializados e aplicamos aprendizado contrastivo para promover a diversidade entre as representações de pensamentos suaves. Experimentos em cinco benchmarks de raciocínio e duas arquiteturas distintas de LLM demonstram que o SoftCoT++ melhora significativamente o SoftCoT e também supera o SoftCoT com escalonamento de autoconsistência. Além disso, ele mostra forte compatibilidade com técnicas convencionais de escalonamento, como a autoconsistência. O código-fonte está disponível em https://github.com/xuyige/SoftCoT.
English
Test-Time Scaling (TTS) refers to approaches that improve reasoning
performance by allocating extra computation during inference, without altering
the model's parameters. While existing TTS methods operate in a discrete token
space by generating more intermediate steps, recent studies in Coconut and
SoftCoT have demonstrated that thinking in the continuous latent space can
further enhance the reasoning performance. Such latent thoughts encode
informative thinking without the information loss associated with
autoregressive token generation, sparking increased interest in
continuous-space reasoning. Unlike discrete decoding, where repeated sampling
enables exploring diverse reasoning paths, latent representations in continuous
space are fixed for a given input, which limits diverse exploration, as all
decoded paths originate from the same latent thought. To overcome this
limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling
paradigm by enabling diverse exploration of thinking paths. Specifically, we
perturb latent thoughts via multiple specialized initial tokens and apply
contrastive learning to promote diversity among soft thought representations.
Experiments across five reasoning benchmarks and two distinct LLM architectures
demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms
SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility
with conventional scaling techniques such as self-consistency. Source code is
available at https://github.com/xuyige/SoftCoT.