SofT-GRPO : Surpasser l'apprentissage par renforcement des LLM à jetons discrets via l'optimisation de politique par pensée douce et reparamétrage de Gumbel
SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization
November 9, 2025
papers.authors: Zhi Zheng, Wee Sun Lee
cs.AI
papers.abstract
Le paradigme de la pensée souple (soft-thinking) pour le raisonnement des grands modèles de langage (LLM) peut surpasser le raisonnement conventionnel par chaîne de pensée (CoT) à tokens discrets dans certains scénarios, soulignant ainsi sa valeur pour la recherche et les applications. Cependant, alors que le schéma de raisonnement CoT à tokens discrets peut être renforcé via des algorithmes d'optimisation de politique tels que l'optimisation de politique relative par groupe (GRPO), l'extension du modèle de pensée souple avec l'apprentissage par renforcement (RL) reste difficile. Cette difficulté découle de la complexité liée à l'injection de stochasticité dans les tokens de pensée souple et à la mise à jour des politiques de pensée souple en conséquence. Par conséquent, les tentatives précédentes pour combiner la pensée souple avec GRPO obtiennent généralement des performances inférieures à leurs équivalents GRPO à tokens discrets. Pour libérer pleinement le potentiel de la pensée souple, cet article présente un nouvel algorithme d'optimisation de politique, SofT-GRPO, pour renforcer les LLM selon le schéma de raisonnement par pensée souple. SofT-GRPO injecte du bruit de Gumbel dans les logits, utilise la technique Gumbel-Softmax pour éviter que les tokens de pensée souple ne sortent de l'espace d'embedding pré-entraîné, et tire parti de l'astuce de reparamétrage dans le gradient de politique. Nous menons des expériences sur des LLM de base allant de 1,5 à 7 milliards de paramètres, et les résultats démontrent que SofT-GRPO permet aux LLM utilisant la pensée souple de surpasser légèrement le GRPO à tokens discrets sur Pass@1 (+0,13% en précision moyenne), tout en affichant une amélioration substantielle sur Pass@32 (+2,19% en précision moyenne). Les codes et les poids sont disponibles sur https://github.com/zz1358m/SofT-GRPO-master.
English
The soft-thinking paradigm for Large Language Model (LLM) reasoning can
outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in
some scenarios, underscoring its research and application value. However, while
the discrete-token CoT reasoning pattern can be reinforced through policy
optimization algorithms such as group relative policy optimization (GRPO),
extending the soft-thinking pattern with Reinforcement Learning (RL) remains
challenging. This difficulty stems from the complexities of injecting
stochasticity into soft-thinking tokens and updating soft-thinking policies
accordingly. As a result, previous attempts to combine soft-thinking with GRPO
typically underperform their discrete-token GRPO counterparts. To fully unlock
the potential of soft-thinking, this paper presents a novel policy optimization
algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning
pattern. SofT-GRPO injects the Gumbel noise into logits, employs the
Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained
embedding space, and leverages the reparameterization trick in policy gradient.
We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and
results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly
outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while
exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes
and weights are available on https://github.com/zz1358m/SofT-GRPO-master