DiPO: Otimização de Política de Perplexidade Desacoplada para um Equilíbrio Granular entre Exploração e Exploração

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) catalisou avanços significativos nas capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, gerir eficazmente o equilíbrio entre exploração e exploração permanece um desafio crítico. Neste artigo, analisamos profundamente o dilema de exploração e exploração de amostras extremamente difíceis e fáceis durante o treinamento e propomos um novo mecanismo de equilíbrio de granularidade fina. Concretamente, introduzimos uma estratégia de desagregação do espaço de perplexidade que divide o espaço de amostras em subespaços distintos de exploração (alta perplexidade) e exploração (baixa perplexidade, permitindo assim a mineração de amostras de granularidade fina que requerem um equilíbrio entre exploração e exploração. Subsequentemente, propomos um mecanismo de alocação de recompensa bidirecional com impacto mínimo nas recompensas de verificação para implementar a exploração e exploração guiadas pela perplexidade, permitindo uma otimização de política mais estável. Por fim, avaliamos nosso método em duas tarefas principais: raciocínio matemático e chamada de funções, e os resultados experimentais demonstram a superioridade do método proposto, confirmando sua eficácia na melhoria do desempenho do LLM através de um equilíbrio de granularidade fina entre exploração e exploração.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has catalyzed significant advances in the reasoning capabilities of Large Language Models (LLMs). However, effectively managing the exploration and exploitation trade-off remains a critical challenge. In this paper, we fully analyze the exploration and exploitation dilemma of extremely hard and easy samples during the training and propose a new fine-grained trade-off mechanism. Concretely, we introduce a perplexity space disentangling strategy that divides the sample space into distinct exploration (high perplexity) and exploitation (low perplexity) subspaces, thereby mining fine-grained samples requiring exploration-exploitation trade-off. Subsequently, we propose a bidirectional reward allocation mechanism with a minimum impact on verification rewards to implement perplexity-guided exploration and exploitation, enabling more stable policy optimization. Finally, we have evaluated our method on two mainstream tasks: mathematical reasoning and function calling, and experimental results demonstrate the superiority of the proposed method, confirming its effectiveness in enhancing LLM performance by fine-grained exploration-exploitation trade-off.

DiPO: Otimização de Política de Perplexidade Desacoplada para um Equilíbrio Granular entre Exploração e Exploração

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

Resumo

Support