SoftCoT++ : Mise à l'échelle en temps de test avec raisonnement en chaîne de pensée douce

papers.abstract

Le Test-Time Scaling (TTS) désigne des approches qui améliorent les performances de raisonnement en allouant des calculs supplémentaires lors de l'inférence, sans modifier les paramètres du modèle. Alors que les méthodes TTS existantes opèrent dans un espace de tokens discrets en générant davantage d'étapes intermédiaires, des études récentes dans Coconut et SoftCoT ont démontré que penser dans l'espace latent continu peut encore améliorer les performances de raisonnement. Ces pensées latentes encodent une réflexion informative sans la perte d'information associée à la génération de tokens autorégressive, suscitant un intérêt accru pour le raisonnement dans l'espace continu. Contrairement au décodage discret, où un échantillonnage répété permet d'explorer des chemins de raisonnement diversifiés, les représentations latentes dans l'espace continu sont fixes pour une entrée donnée, ce qui limite l'exploration diversifiée, car tous les chemins décodés proviennent de la même pensée latente. Pour surmonter cette limitation, nous introduisons SoftCoT++ pour étendre SoftCoT au paradigme du Test-Time Scaling en permettant une exploration diversifiée des chemins de pensée. Plus précisément, nous perturbons les pensées latentes via plusieurs tokens initiaux spécialisés et appliquons un apprentissage contrastif pour promouvoir la diversité parmi les représentations de pensées douces. Des expériences sur cinq benchmarks de raisonnement et deux architectures distinctes de LLM démontrent que SoftCoT++ améliore significativement SoftCoT et surpasse également SoftCoT avec un scaling de cohérence interne. De plus, il montre une forte compatibilité avec les techniques de scaling conventionnelles telles que la cohérence interne. Le code source est disponible à l'adresse https://github.com/xuyige/SoftCoT.

English

Test-Time Scaling (TTS) refers to approaches that improve reasoning performance by allocating extra computation during inference, without altering the model's parameters. While existing TTS methods operate in a discrete token space by generating more intermediate steps, recent studies in Coconut and SoftCoT have demonstrated that thinking in the continuous latent space can further enhance the reasoning performance. Such latent thoughts encode informative thinking without the information loss associated with autoregressive token generation, sparking increased interest in continuous-space reasoning. Unlike discrete decoding, where repeated sampling enables exploring diverse reasoning paths, latent representations in continuous space are fixed for a given input, which limits diverse exploration, as all decoded paths originate from the same latent thought. To overcome this limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling paradigm by enabling diverse exploration of thinking paths. Specifically, we perturb latent thoughts via multiple specialized initial tokens and apply contrastive learning to promote diversity among soft thought representations. Experiments across five reasoning benchmarks and two distinct LLM architectures demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility with conventional scaling techniques such as self-consistency. Source code is available at https://github.com/xuyige/SoftCoT.

SoftCoT++ : Mise à l'échelle en temps de test avec raisonnement en chaîne de pensée douce

SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

papers.abstract

Support