SoftCoT++ : Mise à l'échelle en temps de test avec raisonnement en chaîne de pensée douce
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
May 16, 2025
Auteurs: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao
cs.AI
Résumé
Le Test-Time Scaling (TTS) désigne des approches qui améliorent les performances de raisonnement en allouant des calculs supplémentaires lors de l'inférence, sans modifier les paramètres du modèle. Alors que les méthodes TTS existantes opèrent dans un espace de tokens discrets en générant davantage d'étapes intermédiaires, des études récentes dans Coconut et SoftCoT ont démontré que penser dans l'espace latent continu peut encore améliorer les performances de raisonnement. Ces pensées latentes encodent une réflexion informative sans la perte d'information associée à la génération de tokens autorégressive, suscitant un intérêt accru pour le raisonnement dans l'espace continu. Contrairement au décodage discret, où un échantillonnage répété permet d'explorer des chemins de raisonnement diversifiés, les représentations latentes dans l'espace continu sont fixes pour une entrée donnée, ce qui limite l'exploration diversifiée, car tous les chemins décodés proviennent de la même pensée latente. Pour surmonter cette limitation, nous introduisons SoftCoT++ pour étendre SoftCoT au paradigme du Test-Time Scaling en permettant une exploration diversifiée des chemins de pensée. Plus précisément, nous perturbons les pensées latentes via plusieurs tokens initiaux spécialisés et appliquons un apprentissage contrastif pour promouvoir la diversité parmi les représentations de pensées douces. Des expériences sur cinq benchmarks de raisonnement et deux architectures distinctes de LLM démontrent que SoftCoT++ améliore significativement SoftCoT et surpasse également SoftCoT avec un scaling de cohérence interne. De plus, il montre une forte compatibilité avec les techniques de scaling conventionnelles telles que la cohérence interne. Le code source est disponible à l'adresse https://github.com/xuyige/SoftCoT.
English
Test-Time Scaling (TTS) refers to approaches that improve reasoning
performance by allocating extra computation during inference, without altering
the model's parameters. While existing TTS methods operate in a discrete token
space by generating more intermediate steps, recent studies in Coconut and
SoftCoT have demonstrated that thinking in the continuous latent space can
further enhance the reasoning performance. Such latent thoughts encode
informative thinking without the information loss associated with
autoregressive token generation, sparking increased interest in
continuous-space reasoning. Unlike discrete decoding, where repeated sampling
enables exploring diverse reasoning paths, latent representations in continuous
space are fixed for a given input, which limits diverse exploration, as all
decoded paths originate from the same latent thought. To overcome this
limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling
paradigm by enabling diverse exploration of thinking paths. Specifically, we
perturb latent thoughts via multiple specialized initial tokens and apply
contrastive learning to promote diversity among soft thought representations.
Experiments across five reasoning benchmarks and two distinct LLM architectures
demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms
SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility
with conventional scaling techniques such as self-consistency. Source code is
available at https://github.com/xuyige/SoftCoT.Summary
AI-Generated Summary