SofT-GRPO: Superando el Aprendizaje por Refuerzo de LLM de Tokens Discretos mediante la Optimización de Políticas de Pensamiento Suave con Reparametrización de Gumbel

Resumen

El paradigma de pensamiento blando (soft-thinking) para el razonamiento de Modelos de Lenguaje Grandes (LLM) puede superar al razonamiento convencional de Cadena de Pensamiento (CoT) con tokens discretos en algunos escenarios, lo que subraya su valor investigativo y aplicado. Sin embargo, mientras que el patrón de razonamiento CoT con tokens discretos puede ser reforzado mediante algoritmos de optimización de políticas como la optimización de políticas relativas por grupos (GRPO), extender el patrón de pensamiento blando con Aprendizaje por Refuerzo (RL) sigue siendo un desafío. Esta dificultad surge de las complejidades de inyectar estocasticidad en los tokens de pensamiento blando y actualizar las políticas de pensamiento blando en consecuencia. Como resultado, los intentos previos de combinar pensamiento blando con GRPO típicamente rinden por debajo de sus contrapartes de GRPO con tokens discretos. Para liberar todo el potencial del pensamiento blando, este artículo presenta un novedoso algoritmo de optimización de políticas, SofT-GRPO, para reforzar LLMs bajo el patrón de razonamiento de pensamiento blando. SofT-GRPO inyecta ruido de Gumbel en los logits, emplea la técnica Gumbel-Softmax para evitar que los tokens de pensamiento blando queden fuera del espacio de incrustación preentrenado, y aproveja el truco de reparametrización en el gradiente de la política. Realizamos experimentos en LLMs base que van desde 1.5B hasta 7B de parámetros, y los resultados demuestran que SofT-GRPO permite que los LLMs de pensamiento blando superen ligeramente a GRPO con tokens discretos en Pass@1 (+0.13% en precisión promedio), mientras exhiben una mejora sustancial en Pass@32 (+2.19% en precisión promedio). Los códigos y los pesos están disponibles en https://github.com/zz1358m/SofT-GRPO-master.

English

The soft-thinking paradigm for Large Language Model (LLM) reasoning can outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in some scenarios, underscoring its research and application value. However, while the discrete-token CoT reasoning pattern can be reinforced through policy optimization algorithms such as group relative policy optimization (GRPO), extending the soft-thinking pattern with Reinforcement Learning (RL) remains challenging. This difficulty stems from the complexities of injecting stochasticity into soft-thinking tokens and updating soft-thinking policies accordingly. As a result, previous attempts to combine soft-thinking with GRPO typically underperform their discrete-token GRPO counterparts. To fully unlock the potential of soft-thinking, this paper presents a novel policy optimization algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning pattern. SofT-GRPO injects the Gumbel noise into logits, employs the Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained embedding space, and leverages the reparameterization trick in policy gradient. We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes and weights are available on https://github.com/zz1358m/SofT-GRPO-master

SofT-GRPO: Superando el Aprendizaje por Refuerzo de LLM de Tokens Discretos mediante la Optimización de Políticas de Pensamiento Suave con Reparametrización de Gumbel

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

Resumen

Support