DiPO: Ontvlochten Perplexiteitsbeleidsoptimalisatie voor Fijnafstemming van de Balans tussen Verkenning en Exploitatie

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft een katalysator gevormd voor significante vooruitgang in de redeneervermogens van Large Language Models (LLM's). Het effectief beheren van de afweging tussen exploratie en exploitatie blijft echter een kritieke uitdaging. In dit artikel analyseren wij grondig het exploratie- en exploitatie-dilemma van extreem moeilijke en eenvoudige samples tijdens de training en stellen een nieuw fijnmazig afwegingsmechanisme voor. Concreet introduceren we een ontvlechtingsstrategie voor de perplexiteitsruimte, die de sample-ruimte verdeelt in afzonderlijke exploratie- (hoge perplexiteit) en exploitatie-subruimtes (lage perplexiteit), waardoor fijnmazige samples die een exploratie-exploitatie-afweging vereisen, worden blootgelegd. Vervolgens stellen we een bidirectioneel beloningstoewijzingsmechanisme voor met een minimale impact op de verificatiebeloningen, om perplexiteit-gestuurde exploratie en exploitatie te implementeren, wat een stabielere beleidsoptimalisatie mogelijk maakt. Ten slotte hebben we onze methode geëvalueerd op twee hoofdstroomtaken: wiskundig redeneren en functie-aanroeping. De experimentele resultaten tonen de superioriteit van de voorgestelde methode aan en bevestigen de effectiviteit ervan bij het verbeteren van de LLM-prestaties door middel van een fijnmazige exploratie-exploitatie-afweging.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has catalyzed significant advances in the reasoning capabilities of Large Language Models (LLMs). However, effectively managing the exploration and exploitation trade-off remains a critical challenge. In this paper, we fully analyze the exploration and exploitation dilemma of extremely hard and easy samples during the training and propose a new fine-grained trade-off mechanism. Concretely, we introduce a perplexity space disentangling strategy that divides the sample space into distinct exploration (high perplexity) and exploitation (low perplexity) subspaces, thereby mining fine-grained samples requiring exploration-exploitation trade-off. Subsequently, we propose a bidirectional reward allocation mechanism with a minimum impact on verification rewards to implement perplexity-guided exploration and exploitation, enabling more stable policy optimization. Finally, we have evaluated our method on two mainstream tasks: mathematical reasoning and function calling, and experimental results demonstrate the superiority of the proposed method, confirming its effectiveness in enhancing LLM performance by fine-grained exploration-exploitation trade-off.

DiPO: Ontvlochten Perplexiteitsbeleidsoptimalisatie voor Fijnafstemming van de Balans tussen Verkenning en Exploitatie

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

Samenvatting

Support