DiPO: Ottimizzazione della Politica di Perplessità Disentanglate per un Bilanciamento Granulare tra Esplorazione e Sfruttamento

Abstract

L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha catalizzato progressi significativi nelle capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM). Tuttavia, gestire efficacemente il compromesso tra esplorazione e sfruttamento rimane una sfida cruciale. In questo articolo, analizziamo approfonditamente il dilemma dell’esplorazione e dello sfruttamento relativo a campioni estremamente difficili e facili durante l’addestramento e proponiamo un nuovo meccanismo di compromesso granulare. Nello specifico, introduciamo una strategia di separazione dello spazio di perplessità che suddivide lo spazio dei campioni in distinti sottospazi di esplorazione (alta perplessità) e sfruttamento (bassa perplessità, estraendo così campioni granulari che richiedono un bilanciamento tra esplorazione e sfruttamento. Successivamente, proponiamo un meccanismo di allocazione bidirezionale delle ricompense con un impatto minimo sulle ricompense di verifica, per implementare un’esplorazione e uno sfruttamento guidati dalla perplessità, consentendo un’ottimizzazione della politica più stabile. Infine, abbiamo valutato il nostro metodo su due compiti principali: il ragionamento matematico e la chiamata di funzioni. I risultati sperimentali dimostrano la superiorità del metodo proposto, confermandone l’efficacia nel migliorare le prestazioni degli LLM attraverso un compromesso granulare tra esplorazione e sfruttamento.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has catalyzed significant advances in the reasoning capabilities of Large Language Models (LLMs). However, effectively managing the exploration and exploitation trade-off remains a critical challenge. In this paper, we fully analyze the exploration and exploitation dilemma of extremely hard and easy samples during the training and propose a new fine-grained trade-off mechanism. Concretely, we introduce a perplexity space disentangling strategy that divides the sample space into distinct exploration (high perplexity) and exploitation (low perplexity) subspaces, thereby mining fine-grained samples requiring exploration-exploitation trade-off. Subsequently, we propose a bidirectional reward allocation mechanism with a minimum impact on verification rewards to implement perplexity-guided exploration and exploitation, enabling more stable policy optimization. Finally, we have evaluated our method on two mainstream tasks: mathematical reasoning and function calling, and experimental results demonstrate the superiority of the proposed method, confirming its effectiveness in enhancing LLM performance by fine-grained exploration-exploitation trade-off.

DiPO: Ottimizzazione della Politica di Perplessità Disentanglate per un Bilanciamento Granulare tra Esplorazione e Sfruttamento

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

Abstract

Support