De Volta ao Básico: Revisitando a Exploração no Aprendizado por Reforço para Raciocínio em LLMs por meio de Probabilidades Gerativas

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um paradigma indispensável para aprimorar o raciocínio em Modelos de Linguagem de Grande Porte (LLMs). No entanto, métodos padrão de otimização de políticas, como a Otimização de Política Relativa de Grupo (GRPO), frequentemente convergem para políticas de baixa entropia, resultando em colapso modal severo e diversidade limitada de saída. Analisamos essa questão pela perspectiva da dinâmica de probabilidade de amostragem, identificando que o objetivo padrão reforça desproporcionalmente os caminhos de maior probabilidade, suprimindo assim cadeias de raciocínio alternativas válidas. Para resolver isso, propomos um novo Mecanismo de Reponderação de Vantagem (ARM) projetado para equilibrar os níveis de confiança em todas as respostas corretas. Ao incorporar a Perplexidade do Prompt e a Confiança da Resposta na estimativa de vantagem, nosso método remodela dinamicamente o sinal de recompensa para atenuar as atualizações de gradiente de caminhos de raciocínio superconfiantes, enquanto redistribui a massa de probabilidade para soluções corretas subexploradas. Resultados empíricos demonstram que nossa abordagem aumenta significativamente a diversidade gerativa e a entropia da resposta, mantendo uma precisão competitiva, alcançando efetivamente um equilíbrio superior entre exploração e exploração em tarefas de raciocínio. Resultados empíricos nos modelos Qwen2.5 e DeepSeek em benchmarks matemáticos e de codificação mostram que o ProGRPO mitiga significativamente o colapso de entropia. Especificamente, no Qwen2.5-7B, nosso método supera o GRPO em 5,7% no Pass@1 e, notavelmente, em 13,9% no Pass@32, destacando sua capacidade superior em gerar diversos caminhos de raciocínio corretos.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.

De Volta ao Básico: Revisitando a Exploração no Aprendizado por Reforço para Raciocínio em LLMs por meio de Probabilidades Gerativas

Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

Resumo

Support