SoftCoT++: Scalabilità durante il Test con Ragionamento a Catena di Pensiero Soft
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
May 16, 2025
Autori: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao
cs.AI
Abstract
Il Test-Time Scaling (TTS) si riferisce a approcci che migliorano le prestazioni di ragionamento allocando calcoli aggiuntivi durante l'inferenza, senza alterare i parametri del modello. Mentre i metodi TTS esistenti operano in uno spazio discreto di token generando più passaggi intermedi, studi recenti in Coconut e SoftCoT hanno dimostrato che ragionare nello spazio latente continuo può ulteriormente migliorare le prestazioni di ragionamento. Tali pensieri latenti codificano un pensiero informativo senza la perdita di informazioni associata alla generazione autoregressiva di token, suscitando un crescente interesse per il ragionamento nello spazio continuo. A differenza del decoding discreto, dove il campionamento ripetuto consente di esplorare percorsi di ragionamento diversi, le rappresentazioni latenti nello spazio continuo sono fisse per un dato input, il che limita l'esplorazione diversificata, poiché tutti i percorsi decodificati originano dallo stesso pensiero latente. Per superare questa limitazione, introduciamo SoftCoT++ per estendere SoftCoT al paradigma del Test-Time Scaling, consentendo un'esplorazione diversificata dei percorsi di pensiero. Nello specifico, perturbiamo i pensieri latenti tramite più token iniziali specializzati e applichiamo l'apprendimento contrastivo per promuovere la diversità tra le rappresentazioni dei pensieri soft. Esperimenti condotti su cinque benchmark di ragionamento e due distinte architetture LLM dimostrano che SoftCoT++ migliora significativamente SoftCoT e supera anche SoftCoT con il self-consistency scaling. Inoltre, mostra una forte compatibilità con tecniche di scaling convenzionali come il self-consistency. Il codice sorgente è disponibile all'indirizzo https://github.com/xuyige/SoftCoT.
English
Test-Time Scaling (TTS) refers to approaches that improve reasoning
performance by allocating extra computation during inference, without altering
the model's parameters. While existing TTS methods operate in a discrete token
space by generating more intermediate steps, recent studies in Coconut and
SoftCoT have demonstrated that thinking in the continuous latent space can
further enhance the reasoning performance. Such latent thoughts encode
informative thinking without the information loss associated with
autoregressive token generation, sparking increased interest in
continuous-space reasoning. Unlike discrete decoding, where repeated sampling
enables exploring diverse reasoning paths, latent representations in continuous
space are fixed for a given input, which limits diverse exploration, as all
decoded paths originate from the same latent thought. To overcome this
limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling
paradigm by enabling diverse exploration of thinking paths. Specifically, we
perturb latent thoughts via multiple specialized initial tokens and apply
contrastive learning to promote diversity among soft thought representations.
Experiments across five reasoning benchmarks and two distinct LLM architectures
demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms
SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility
with conventional scaling techniques such as self-consistency. Source code is
available at https://github.com/xuyige/SoftCoT.