SofT-GRPO: Superando el Aprendizaje por Refuerzo de LLM de Tokens Discretos mediante la Optimización de Políticas de Pensamiento Suave con Reparametrización de Gumbel
SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization
November 9, 2025
Autores: Zhi Zheng, Wee Sun Lee
cs.AI
Resumen
El paradigma de pensamiento blando (soft-thinking) para el razonamiento de Modelos de Lenguaje Grandes (LLM) puede superar al razonamiento convencional de Cadena de Pensamiento (CoT) con tokens discretos en algunos escenarios, lo que subraya su valor investigativo y aplicado. Sin embargo, mientras que el patrón de razonamiento CoT con tokens discretos puede ser reforzado mediante algoritmos de optimización de políticas como la optimización de políticas relativas por grupos (GRPO), extender el patrón de pensamiento blando con Aprendizaje por Refuerzo (RL) sigue siendo un desafío. Esta dificultad surge de las complejidades de inyectar estocasticidad en los tokens de pensamiento blando y actualizar las políticas de pensamiento blando en consecuencia. Como resultado, los intentos previos de combinar pensamiento blando con GRPO típicamente rinden por debajo de sus contrapartes de GRPO con tokens discretos. Para liberar todo el potencial del pensamiento blando, este artículo presenta un novedoso algoritmo de optimización de políticas, SofT-GRPO, para reforzar LLMs bajo el patrón de razonamiento de pensamiento blando. SofT-GRPO inyecta ruido de Gumbel en los logits, emplea la técnica Gumbel-Softmax para evitar que los tokens de pensamiento blando queden fuera del espacio de incrustación preentrenado, y aproveja el truco de reparametrización en el gradiente de la política. Realizamos experimentos en LLMs base que van desde 1.5B hasta 7B de parámetros, y los resultados demuestran que SofT-GRPO permite que los LLMs de pensamiento blando superen ligeramente a GRPO con tokens discretos en Pass@1 (+0.13% en precisión promedio), mientras exhiben una mejora sustancial en Pass@32 (+2.19% en precisión promedio). Los códigos y los pesos están disponibles en https://github.com/zz1358m/SofT-GRPO-master.
English
The soft-thinking paradigm for Large Language Model (LLM) reasoning can
outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in
some scenarios, underscoring its research and application value. However, while
the discrete-token CoT reasoning pattern can be reinforced through policy
optimization algorithms such as group relative policy optimization (GRPO),
extending the soft-thinking pattern with Reinforcement Learning (RL) remains
challenging. This difficulty stems from the complexities of injecting
stochasticity into soft-thinking tokens and updating soft-thinking policies
accordingly. As a result, previous attempts to combine soft-thinking with GRPO
typically underperform their discrete-token GRPO counterparts. To fully unlock
the potential of soft-thinking, this paper presents a novel policy optimization
algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning
pattern. SofT-GRPO injects the Gumbel noise into logits, employs the
Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained
embedding space, and leverages the reparameterization trick in policy gradient.
We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and
results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly
outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while
exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes
and weights are available on https://github.com/zz1358m/SofT-GRPO-master