ChatPaper.aiChatPaper

SofT-GRPO: Преодоление ограничений обучения с подкреплением для LLM с дискретными токенами с помощью оптимизации политик мягкого мышления через параметризацию Гумбеля

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

November 9, 2025
Авторы: Zhi Zheng, Wee Sun Lee
cs.AI

Аннотация

Парадигма мягкого мышления (soft-thinking) для рассуждений больших языковых моделей (LLM) в некоторых сценариях может превзойти традиционное дискретно-токенное рассуждение цепочкой мыслей (CoT), что подчеркивает ее исследовательскую и прикладную ценность. Однако, в то время как дискретно-токенный подход CoT можно усилить с помощью алгоритмов оптимизации политик, таких как групповая относительная оптимизация политик (GRPO), расширение паттерна мягкого мышления с помощью обучения с подкреплением (RL) остается сложной задачей. Эта трудность проистекает из сложностей внедрения стохастичности в токены мягкого мышления и соответствующего обновления политик мягкого мышления. Как следствие, предыдущие попытки комбинировать мягкое мышление с GRPO, как правило, показывают худшие результаты по сравнению с их дискретно-токенными аналогами GRPO. Чтобы полностью раскрыть потенциал мягкого мышления, данная статья представляет новый алгоритм оптимизации политик, SofT-GRPO, для усиления LLM в рамках парадигмы рассуждений мягкого мышления. SofT-GRPO внедряет шум Гумбела в логиты, использует технику Gumbel-Softmax для предотвращения выхода токенов мягкого мышления за пределы предварительно обученного эмбеддинг-пространства и применяет трюк репараметризации в градиенте политики. Мы провели эксперименты на базовых LLM с количеством параметров от 1.5B до 7B, и результаты демонстрируют, что SofT-GRPO позволяет моделям с мягким мышлением незначительно превзойти дискретно-токенный GRPO по метрике Pass@1 (+0.13% в среднем по точности), одновременно демонстрируя существенный прирост по метрике Pass@32 (+2.19% в среднем по точности). Код и веса моделей доступны по адресу https://github.com/zz1358m/SofT-GRPO-master.
English
The soft-thinking paradigm for Large Language Model (LLM) reasoning can outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in some scenarios, underscoring its research and application value. However, while the discrete-token CoT reasoning pattern can be reinforced through policy optimization algorithms such as group relative policy optimization (GRPO), extending the soft-thinking pattern with Reinforcement Learning (RL) remains challenging. This difficulty stems from the complexities of injecting stochasticity into soft-thinking tokens and updating soft-thinking policies accordingly. As a result, previous attempts to combine soft-thinking with GRPO typically underperform their discrete-token GRPO counterparts. To fully unlock the potential of soft-thinking, this paper presents a novel policy optimization algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning pattern. SofT-GRPO injects the Gumbel noise into logits, employs the Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained embedding space, and leverages the reparameterization trick in policy gradient. We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes and weights are available on https://github.com/zz1358m/SofT-GRPO-master
PDF182February 7, 2026