SofT-GRPO : Surpasser l'apprentissage par renforcement des LLM à jetons discrets via l'optimisation de politique par pensée douce et reparamétrage de Gumbel

papers.abstract

Le paradigme de la pensée souple (soft-thinking) pour le raisonnement des grands modèles de langage (LLM) peut surpasser le raisonnement conventionnel par chaîne de pensée (CoT) à tokens discrets dans certains scénarios, soulignant ainsi sa valeur pour la recherche et les applications. Cependant, alors que le schéma de raisonnement CoT à tokens discrets peut être renforcé via des algorithmes d'optimisation de politique tels que l'optimisation de politique relative par groupe (GRPO), l'extension du modèle de pensée souple avec l'apprentissage par renforcement (RL) reste difficile. Cette difficulté découle de la complexité liée à l'injection de stochasticité dans les tokens de pensée souple et à la mise à jour des politiques de pensée souple en conséquence. Par conséquent, les tentatives précédentes pour combiner la pensée souple avec GRPO obtiennent généralement des performances inférieures à leurs équivalents GRPO à tokens discrets. Pour libérer pleinement le potentiel de la pensée souple, cet article présente un nouvel algorithme d'optimisation de politique, SofT-GRPO, pour renforcer les LLM selon le schéma de raisonnement par pensée souple. SofT-GRPO injecte du bruit de Gumbel dans les logits, utilise la technique Gumbel-Softmax pour éviter que les tokens de pensée souple ne sortent de l'espace d'embedding pré-entraîné, et tire parti de l'astuce de reparamétrage dans le gradient de politique. Nous menons des expériences sur des LLM de base allant de 1,5 à 7 milliards de paramètres, et les résultats démontrent que SofT-GRPO permet aux LLM utilisant la pensée souple de surpasser légèrement le GRPO à tokens discrets sur Pass@1 (+0,13% en précision moyenne), tout en affichant une amélioration substantielle sur Pass@32 (+2,19% en précision moyenne). Les codes et les poids sont disponibles sur https://github.com/zz1358m/SofT-GRPO-master.

English

The soft-thinking paradigm for Large Language Model (LLM) reasoning can outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in some scenarios, underscoring its research and application value. However, while the discrete-token CoT reasoning pattern can be reinforced through policy optimization algorithms such as group relative policy optimization (GRPO), extending the soft-thinking pattern with Reinforcement Learning (RL) remains challenging. This difficulty stems from the complexities of injecting stochasticity into soft-thinking tokens and updating soft-thinking policies accordingly. As a result, previous attempts to combine soft-thinking with GRPO typically underperform their discrete-token GRPO counterparts. To fully unlock the potential of soft-thinking, this paper presents a novel policy optimization algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning pattern. SofT-GRPO injects the Gumbel noise into logits, employs the Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained embedding space, and leverages the reparameterization trick in policy gradient. We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes and weights are available on https://github.com/zz1358m/SofT-GRPO-master

SofT-GRPO : Surpasser l'apprentissage par renforcement des LLM à jetons discrets via l'optimisation de politique par pensée douce et reparamétrage de Gumbel

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

papers.abstract

Support