SoftCoT++: Test-Zeit-Skalierung mit weicher Chain-of-Thought-Argumentation
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
May 16, 2025
Autoren: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao
cs.AI
Zusammenfassung
Test-Time Scaling (TTS) bezeichnet Ansätze, die die Schlussfolgerungsleistung verbessern, indem zusätzliche Berechnungen während der Inferenz zugewiesen werden, ohne die Parameter des Modells zu verändern. Während bestehende TTS-Methoden in einem diskreten Token-Raum operieren, indem sie mehr Zwischenschritte generieren, haben aktuelle Studien in Coconut und SoftCoT gezeigt, dass das Denken im kontinuierlichen latenten Raum die Schlussfolgerungsleistung weiter steigern kann. Solche latenten Gedanken kodieren informatives Denken ohne den Informationsverlust, der mit der autoregressiven Token-Generierung verbunden ist, was das Interesse am kontinuierlichen Raum-Schlussfolgern verstärkt hat. Im Gegensatz zur diskreten Dekodierung, bei der wiederholtes Sampling die Erkundung verschiedener Schlussfolgerungspfade ermöglicht, sind latente Repräsentationen im kontinuierlichen Raum für einen gegebenen Eingabewert festgelegt, was die vielfältige Erkundung einschränkt, da alle dekodierten Pfade vom gleichen latenten Gedanken ausgehen. Um diese Einschränkung zu überwinden, führen wir SoftCoT++ ein, um SoftCoT auf das Test-Time Scaling-Paradigma auszuweiten, indem wir die vielfältige Erkundung von Denkpfaden ermöglichen. Konkret stören wir latente Gedanken durch mehrere spezialisierte Initialtokens und wenden kontrastives Lernen an, um die Diversität unter den weichen Gedankenrepräsentationen zu fördern. Experimente über fünf Schlussfolgerungs-Benchmarks und zwei unterschiedliche LLM-Architekturen zeigen, dass SoftCoT++ SoftCoT signifikant verbessert und auch SoftCoT mit Self-Consistency-Scaling übertrifft. Darüber hinaus zeigt es eine starke Kompatibilität mit konventionellen Skalierungstechniken wie Self-Consistency. Der Quellcode ist unter https://github.com/xuyige/SoftCoT verfügbar.
English
Test-Time Scaling (TTS) refers to approaches that improve reasoning
performance by allocating extra computation during inference, without altering
the model's parameters. While existing TTS methods operate in a discrete token
space by generating more intermediate steps, recent studies in Coconut and
SoftCoT have demonstrated that thinking in the continuous latent space can
further enhance the reasoning performance. Such latent thoughts encode
informative thinking without the information loss associated with
autoregressive token generation, sparking increased interest in
continuous-space reasoning. Unlike discrete decoding, where repeated sampling
enables exploring diverse reasoning paths, latent representations in continuous
space are fixed for a given input, which limits diverse exploration, as all
decoded paths originate from the same latent thought. To overcome this
limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling
paradigm by enabling diverse exploration of thinking paths. Specifically, we
perturb latent thoughts via multiple specialized initial tokens and apply
contrastive learning to promote diversity among soft thought representations.
Experiments across five reasoning benchmarks and two distinct LLM architectures
demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms
SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility
with conventional scaling techniques such as self-consistency. Source code is
available at https://github.com/xuyige/SoftCoT.Summary
AI-Generated Summary