SoftCoT++: ソフト連鎖思考推論を用いたテスト時スケーリング
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
May 16, 2025
著者: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao
cs.AI
要旨
テストタイムスケーリング(TTS)は、モデルのパラメータを変更することなく、推論時に追加の計算を割り当てることで推論性能を向上させるアプローチを指す。既存のTTS手法は、より多くの中間ステップを生成することで離散的なトークン空間で動作するが、最近のCoconutおよびSoftCoTの研究では、連続的な潜在空間で思考を行うことで推論性能をさらに向上させることが示されている。このような潜在的な思考は、自己回帰的なトークン生成に伴う情報損失なしに有益な思考を符号化し、連続空間での推論に対する関心を高めている。離散的なデコードでは、繰り返しサンプリングを行うことで多様な推論経路を探索できるが、連続空間における潜在表現は与えられた入力に対して固定されるため、すべてのデコード経路が同じ潜在思考から始まるという制約があり、多様な探索が制限される。この制限を克服するため、我々はSoftCoT++を導入し、SoftCoTをテストタイムスケーリングのパラダイムに拡張することで、思考経路の多様な探索を可能にする。具体的には、複数の専門化された初期トークンを通じて潜在思考を摂動させ、ソフト思考表現間の多様性を促進するためにコントラスティブ学習を適用する。5つの推論ベンチマークと2つの異なるLLMアーキテクチャにわたる実験により、SoftCoT++がSoftCoTを大幅に向上させ、自己整合性スケーリングを伴うSoftCoTをも凌駕することが示された。さらに、自己整合性などの従来のスケーリング技術との強い互換性も示されている。ソースコードはhttps://github.com/xuyige/SoftCoTで公開されている。
English
Test-Time Scaling (TTS) refers to approaches that improve reasoning
performance by allocating extra computation during inference, without altering
the model's parameters. While existing TTS methods operate in a discrete token
space by generating more intermediate steps, recent studies in Coconut and
SoftCoT have demonstrated that thinking in the continuous latent space can
further enhance the reasoning performance. Such latent thoughts encode
informative thinking without the information loss associated with
autoregressive token generation, sparking increased interest in
continuous-space reasoning. Unlike discrete decoding, where repeated sampling
enables exploring diverse reasoning paths, latent representations in continuous
space are fixed for a given input, which limits diverse exploration, as all
decoded paths originate from the same latent thought. To overcome this
limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling
paradigm by enabling diverse exploration of thinking paths. Specifically, we
perturb latent thoughts via multiple specialized initial tokens and apply
contrastive learning to promote diversity among soft thought representations.
Experiments across five reasoning benchmarks and two distinct LLM architectures
demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms
SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility
with conventional scaling techniques such as self-consistency. Source code is
available at https://github.com/xuyige/SoftCoT.Summary
AI-Generated Summary