IIB-LPO: Ottimizzazione della Politica Latente tramite Collo di Bottiglia Informativo Iterativo

Abstract

I recenti progressi nel Reinforcement Learning con Ricompense Verificabili (RLVR) per il ragionamento dei Large Language Model (LLM) sono stati ostacolati da una sfida persistente: il collasso dell'esplorazione. L'omogeneità semantica dei rollouts casuali intrappola spesso i modelli in comportamenti ristretti e iper-ottimizzati. Sebbene i metodi esistenti sfruttino l'entropia della policy per incoraggiare l'esplorazione, essi presentano limitazioni intrinseche. La regolarizzazione dell'entropia globale è suscettibile al reward hacking, che può indurre verbosità priva di significato, mentre gli aggiornamenti locali selettivi sui token faticano a contrastare il forte bias induttivo dei modelli pre-addestrati. Per affrontare questo problema, proponiamo la Latent Policy Optimization tramite Information Bottleneck Iterativo (IIB-LPO), un approccio innovativo che sposta l'esplorazione dalla perturbazione statistica delle distribuzioni di token al branching topologico delle traiettorie di ragionamento. IIB-LPO innesca un branching latente negli stati ad alta entropia per diversificare i percorsi logici e impiega il principio dell'Information Bottleneck sia come filtro delle traiettorie che come meccanismo di auto-ricompensa, garantendo un'esplorazione concisa e informativa. I risultati empirici su quattro benchmark di ragionamento matematico dimostrano che IIB-LPO raggiunge prestazioni all'avanguardia, superando i metodi precedenti con margini fino al 5,3% in accuratezza e al 7,4% nelle metriche di diversità.

English

Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for Large Language Model (LLM) reasoning have been hindered by a persistent challenge: exploration collapse. The semantic homogeneity of random rollouts often traps models in narrow, over-optimized behaviors. While existing methods leverage policy entropy to encourage exploration, they face inherent limitations. Global entropy regularization is susceptible to reward hacking, which can induce meaningless verbosity, whereas local token-selective updates struggle with the strong inductive bias of pre-trained models. To address this, we propose Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO), a novel approach that shifts exploration from statistical perturbation of token distributions to topological branching of reasoning trajectories. IIB-LPO triggers latent branching at high-entropy states to diversify reasoning paths and employs the Information Bottleneck principle both as a trajectory filter and a self-reward mechanism, ensuring concise and informative exploration. Empirical results across four mathematical reasoning benchmarks demonstrate that IIB-LPO achieves state-of-the-art performance, surpassing prior methods by margins of up to 5.3% in accuracy and 7.4% in diversity metrics.

IIB-LPO: Ottimizzazione della Politica Latente tramite Collo di Bottiglia Informativo Iterativo

IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

Abstract

Support