SofT-GRPO: Gumbel-Reparameterized Soft-Thinking Policy Optimization을 통한 이산 토큰 LLM 강화 학습 성능 향상
SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization
November 9, 2025
저자: Zhi Zheng, Wee Sun Lee
cs.AI
초록
대규모 언어 모델(LLM) 추론을 위한 소프트 사고 패러다임은 일부 시나리오에서 기존의 이산 토큰 연쇄 사고(CoT) 추론을 능가할 수 있어 그 연구 및 적용 가치를 부각시킵니다. 그러나 이산 토큰 CoT 추론 패턴은 GRPO와 같은 정책 최적화 알고리즘을 통해 강화될 수 있는 반면, 강화 학습(RL)을 이용해 소프트 사고 패턴을 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 어려움은 소프트 사고 토큰에 확률적 요소를 주입하고 이에 따라 소프트 사고 정책을 업데이트하는 과정의 복잡성에서 비롯됩니다. 그 결과, 소프트 사고와 GRPO를 결합하려는 기존 시도들은 일반적으로 이산 토큰 GRPO 방식에 비해 낮은 성능을 보였습니다. 소프트 사고의 잠재력을 완전히 끌어내기 위해 본 논문은 소프트 사고 추론 패러다임 하에서 LLM을 강화하는 새로운 정책 최적화 알고리즘인 SofT-GRPO를 제안합니다. SofT-GRPO는 로짓에 검벨 노이즈를 주입하고, 사전 훈련된 임베딩 공간을 벗어나는 소프트 사고 토큰을 방지하기 위해 검벨-소프트맥스 기법을 사용하며, 정책 그래디언트에서 재매개변수화 트릭을 활용합니다. 우리는 15억에서 70억 파라미터 규모의 기본 LLM을 대상으로 실험을 수행했으며, 결과는 SofT-GRPO가 소프트 사고 LLM이 Pass@1에서는 이산 토큰 GRPO를 약간 상회하고(평균 정확도 +0.13%), Pass@32에서는 상당한 향상을 보임을 입증합니다(평균 정확도 +2.19%). 코드와 가중치는 https://github.com/zz1358m/SofT-GRPO-master에서 확인할 수 있습니다.
English
The soft-thinking paradigm for Large Language Model (LLM) reasoning can
outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in
some scenarios, underscoring its research and application value. However, while
the discrete-token CoT reasoning pattern can be reinforced through policy
optimization algorithms such as group relative policy optimization (GRPO),
extending the soft-thinking pattern with Reinforcement Learning (RL) remains
challenging. This difficulty stems from the complexities of injecting
stochasticity into soft-thinking tokens and updating soft-thinking policies
accordingly. As a result, previous attempts to combine soft-thinking with GRPO
typically underperform their discrete-token GRPO counterparts. To fully unlock
the potential of soft-thinking, this paper presents a novel policy optimization
algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning
pattern. SofT-GRPO injects the Gumbel noise into logits, employs the
Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained
embedding space, and leverages the reparameterization trick in policy gradient.
We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and
results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly
outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while
exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes
and weights are available on https://github.com/zz1358m/SofT-GRPO-master