SoftCoT++: Escalonamento em Tempo de Teste com Raciocínio de Cadeia de Pensamento Suave

Resumo

O Escalonamento em Tempo de Teste (Test-Time Scaling, TTS) refere-se a abordagens que melhoram o desempenho de raciocínio ao alocar computação adicional durante a inferência, sem alterar os parâmetros do modelo. Enquanto os métodos existentes de TTS operam em um espaço discreto de tokens, gerando mais etapas intermediárias, estudos recentes no Coconut e SoftCoT demonstraram que pensar no espaço latente contínuo pode aprimorar ainda mais o desempenho de raciocínio. Tais pensamentos latentes codificam raciocínios informativos sem a perda de informação associada à geração autoregressiva de tokens, despertando um interesse crescente no raciocínio em espaço contínuo. Diferente da decodificação discreta, onde a amostragem repetida permite explorar diversos caminhos de raciocínio, as representações latentes no espaço contínuo são fixas para uma dada entrada, o que limita a exploração diversificada, já que todos os caminhos decodificados se originam do mesmo pensamento latente. Para superar essa limitação, introduzimos o SoftCoT++ para estender o SoftCoT ao paradigma de Escalonamento em Tempo de Teste, permitindo uma exploração diversificada de caminhos de pensamento. Especificamente, perturbamos pensamentos latentes por meio de múltiplos tokens iniciais especializados e aplicamos aprendizado contrastivo para promover a diversidade entre as representações de pensamentos suaves. Experimentos em cinco benchmarks de raciocínio e duas arquiteturas distintas de LLM demonstram que o SoftCoT++ melhora significativamente o SoftCoT e também supera o SoftCoT com escalonamento de autoconsistência. Além disso, ele mostra forte compatibilidade com técnicas convencionais de escalonamento, como a autoconsistência. O código-fonte está disponível em https://github.com/xuyige/SoftCoT.

English

Test-Time Scaling (TTS) refers to approaches that improve reasoning performance by allocating extra computation during inference, without altering the model's parameters. While existing TTS methods operate in a discrete token space by generating more intermediate steps, recent studies in Coconut and SoftCoT have demonstrated that thinking in the continuous latent space can further enhance the reasoning performance. Such latent thoughts encode informative thinking without the information loss associated with autoregressive token generation, sparking increased interest in continuous-space reasoning. Unlike discrete decoding, where repeated sampling enables exploring diverse reasoning paths, latent representations in continuous space are fixed for a given input, which limits diverse exploration, as all decoded paths originate from the same latent thought. To overcome this limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling paradigm by enabling diverse exploration of thinking paths. Specifically, we perturb latent thoughts via multiple specialized initial tokens and apply contrastive learning to promote diversity among soft thought representations. Experiments across five reasoning benchmarks and two distinct LLM architectures demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility with conventional scaling techniques such as self-consistency. Source code is available at https://github.com/xuyige/SoftCoT.

SoftCoT++: Escalonamento em Tempo de Teste com Raciocínio de Cadeia de Pensamento Suave

SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

Resumo

Support