SofT-GRPO: Überlegenheit gegenüber diskreter Token-Verstärkungslernen für LLMs durch Gumbel-reparametrisierte Soft-Thinking-Policy-Optimierung

papers.abstract

Das Soft-Thinking-Paradigma für das Reasoning großer Sprachmodelle (LLM) kann in einigen Szenarien das konventionelle diskret-tokenbasierte Chain-of-Thought (CoT)-Reasoning übertreffen, was seinen Forschungs- und Anwendungswert unterstreicht. Allerdings lässt sich das diskret-tokenbasierte CoT-Reasoning durch Policy-Optimierungsalgorithmen wie Group Relative Policy Optimization (GRPO) verstärken, während die Erweiterung des Soft-Thinking-Ansatzes mittels Reinforcement Learning (RL) nach wie vor eine Herausforderung darstellt. Diese Schwierigkeit resultiert aus der Komplexität, Stochastizität in Soft-Thinking-Tokens einzubringen und entsprechende Soft-Thinking-Policies zu aktualisieren. Infolgedessen schneiden frühere Versuche, Soft-Thinking mit GRPO zu kombinieren, typischerweise schlechter ab als ihre diskret-tokenbasierten GRPO-Pendants. Um das volle Potenzial von Soft-Thinking auszuschöpfen, stellt dieser Beitrag einen neuartigen Policy-Optimierungsalgorithmus namens SofT-GRPO vor, um LLMs unter dem Soft-Thinking-Reasoning-Paradigma zu verstärken. SofT-GRPO injiziert Gumbel-Rauschen in Logits, nutzt die Gumbel-Softmax-Technik, um Soft-Thinking-Tokens außerhalb des vortrainierten Embedding-Raums zu vermeiden, und verwendet den Reparameterisierungs-Trick im Policy Gradient. Wir führen Experimente mit Basis-LLMs von 1,5 bis 7 Milliarden Parametern durch. Die Ergebnisse zeigen, dass SofT-GRPO es Soft-Thinking-LLMs ermöglicht, diskret-tokenbasiertes GRPO bei Pass@1 geringfügig (+0,13 % im Durchschnitt) zu übertreffen, während bei Pass@32 ein deutlicher Anstieg (+2,19 % im Durchschnitt) zu verzeichnen ist. Codes und Gewichte sind verfügbar unter https://github.com/zz1358m/SofT-GRPO-master.

English

The soft-thinking paradigm for Large Language Model (LLM) reasoning can outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in some scenarios, underscoring its research and application value. However, while the discrete-token CoT reasoning pattern can be reinforced through policy optimization algorithms such as group relative policy optimization (GRPO), extending the soft-thinking pattern with Reinforcement Learning (RL) remains challenging. This difficulty stems from the complexities of injecting stochasticity into soft-thinking tokens and updating soft-thinking policies accordingly. As a result, previous attempts to combine soft-thinking with GRPO typically underperform their discrete-token GRPO counterparts. To fully unlock the potential of soft-thinking, this paper presents a novel policy optimization algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning pattern. SofT-GRPO injects the Gumbel noise into logits, employs the Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained embedding space, and leverages the reparameterization trick in policy gradient. We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes and weights are available on https://github.com/zz1358m/SofT-GRPO-master

SofT-GRPO: Überlegenheit gegenüber diskreter Token-Verstärkungslernen für LLMs durch Gumbel-reparametrisierte Soft-Thinking-Policy-Optimierung

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

papers.abstract

Support