ChatPaper.aiChatPaper

SofT-GRPO: Superare l'Apprendimento per Rinforzo di LLM a Token Discreti tramite l'Ottimizzazione della Politica a Pensiero Soffio con Ripparametrizzazione di Gumbel

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

November 9, 2025
Autori: Zhi Zheng, Wee Sun Lee
cs.AI

Abstract

Il paradigma del soft-thinking per il ragionamento dei Large Language Model (LLM) può superare in alcune situazioni il convenzionale ragionamento a catena del pensiero (CoT) basato su token discreti, sottolineandone il valore di ricerca e applicativo. Tuttavia, mentre il pattern di ragionamento CoT a token discreti può essere rafforzato tramite algoritmi di ottimizzazione delle policy come il group relative policy optimization (GRPO), estendere il pattern soft-thinking con il Reinforcement Learning (RL) rimane complesso. Questa difficoltà deriva dalle complessità legate all'iniezione di stocasticità nei token soft-thinking e all'aggiornamento conseguente delle policy soft-thinking. Di conseguenza, i precedenti tentativi di combinare il soft-thinking con GRPO tipicamente ottengono prestazioni inferiori rispetto alle controparti GRPO a token discreti. Per sbloccare appieno il potenziale del soft-thinking, questo articolo presenta un nuovo algoritmo di ottimizzazione delle policy, SofT-GRPO, per rafforzare gli LLM secondo il pattern di ragionamento soft-thinking. SofT-GRPO inietta rumore di Gumbel nei logit, utilizza la tecnica Gumbel-Softmax per evitare che i token soft-thinking cadano al di fuori dello spazio di embedding pre-addestrato, e sfrutta il reparameterization trick nel policy gradient. Abbiamo condotto esperimenti su LLM di base con parametri da 1.5B a 7B, e i risultati dimostrano che SofT-GRPO consente agli LLM soft-thinking di superare leggermente il GRPO a token discreti su Pass@1 (+0.13% sulla precisione media), mostrando al contempo un sostanziale miglioramento su Pass@32 (+2.19% sulla precisione media). I codici e i pesi sono disponibili su https://github.com/zz1358m/SofT-GRPO-master.
English
The soft-thinking paradigm for Large Language Model (LLM) reasoning can outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in some scenarios, underscoring its research and application value. However, while the discrete-token CoT reasoning pattern can be reinforced through policy optimization algorithms such as group relative policy optimization (GRPO), extending the soft-thinking pattern with Reinforcement Learning (RL) remains challenging. This difficulty stems from the complexities of injecting stochasticity into soft-thinking tokens and updating soft-thinking policies accordingly. As a result, previous attempts to combine soft-thinking with GRPO typically underperform their discrete-token GRPO counterparts. To fully unlock the potential of soft-thinking, this paper presents a novel policy optimization algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning pattern. SofT-GRPO injects the Gumbel noise into logits, employs the Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained embedding space, and leverages the reparameterization trick in policy gradient. We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes and weights are available on https://github.com/zz1358m/SofT-GRPO-master
PDF162December 2, 2025