SoftCoT++: Test-Zeit-Skalierung mit weicher Chain-of-Thought-Argumentation

papers.abstract

Test-Time Scaling (TTS) bezeichnet Ansätze, die die Schlussfolgerungsleistung verbessern, indem zusätzliche Berechnungen während der Inferenz zugewiesen werden, ohne die Parameter des Modells zu verändern. Während bestehende TTS-Methoden in einem diskreten Token-Raum operieren, indem sie mehr Zwischenschritte generieren, haben aktuelle Studien in Coconut und SoftCoT gezeigt, dass das Denken im kontinuierlichen latenten Raum die Schlussfolgerungsleistung weiter steigern kann. Solche latenten Gedanken kodieren informatives Denken ohne den Informationsverlust, der mit der autoregressiven Token-Generierung verbunden ist, was das Interesse am kontinuierlichen Raum-Schlussfolgern verstärkt hat. Im Gegensatz zur diskreten Dekodierung, bei der wiederholtes Sampling die Erkundung verschiedener Schlussfolgerungspfade ermöglicht, sind latente Repräsentationen im kontinuierlichen Raum für einen gegebenen Eingabewert festgelegt, was die vielfältige Erkundung einschränkt, da alle dekodierten Pfade vom gleichen latenten Gedanken ausgehen. Um diese Einschränkung zu überwinden, führen wir SoftCoT++ ein, um SoftCoT auf das Test-Time Scaling-Paradigma auszuweiten, indem wir die vielfältige Erkundung von Denkpfaden ermöglichen. Konkret stören wir latente Gedanken durch mehrere spezialisierte Initialtokens und wenden kontrastives Lernen an, um die Diversität unter den weichen Gedankenrepräsentationen zu fördern. Experimente über fünf Schlussfolgerungs-Benchmarks und zwei unterschiedliche LLM-Architekturen zeigen, dass SoftCoT++ SoftCoT signifikant verbessert und auch SoftCoT mit Self-Consistency-Scaling übertrifft. Darüber hinaus zeigt es eine starke Kompatibilität mit konventionellen Skalierungstechniken wie Self-Consistency. Der Quellcode ist unter https://github.com/xuyige/SoftCoT verfügbar.

English

Test-Time Scaling (TTS) refers to approaches that improve reasoning performance by allocating extra computation during inference, without altering the model's parameters. While existing TTS methods operate in a discrete token space by generating more intermediate steps, recent studies in Coconut and SoftCoT have demonstrated that thinking in the continuous latent space can further enhance the reasoning performance. Such latent thoughts encode informative thinking without the information loss associated with autoregressive token generation, sparking increased interest in continuous-space reasoning. Unlike discrete decoding, where repeated sampling enables exploring diverse reasoning paths, latent representations in continuous space are fixed for a given input, which limits diverse exploration, as all decoded paths originate from the same latent thought. To overcome this limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling paradigm by enabling diverse exploration of thinking paths. Specifically, we perturb latent thoughts via multiple specialized initial tokens and apply contrastive learning to promote diversity among soft thought representations. Experiments across five reasoning benchmarks and two distinct LLM architectures demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility with conventional scaling techniques such as self-consistency. Source code is available at https://github.com/xuyige/SoftCoT.

SoftCoT++: Test-Zeit-Skalierung mit weicher Chain-of-Thought-Argumentation

SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

papers.abstract

Support