ChatPaper.aiChatPaper

Ragionamento con Esplorazione: Una Prospettiva Entropica

Reasoning with Exploration: An Entropy Perspective

June 17, 2025
Autori: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei
cs.AI

Abstract

Bilanciare esplorazione e sfruttamento è un obiettivo centrale nell'apprendimento per rinforzo (RL). Nonostante i recenti progressi nel migliorare il ragionamento dei modelli linguistici (LM), la maggior parte dei metodi tende verso lo sfruttamento, incontrando sempre più spesso plateau di prestazioni. In questo lavoro, torniamo a considerare l'entropia — un segnale di esplorazione nel RL — e ne esaminiamo la relazione con il ragionamento esplorativo nei LM. Attraverso analisi empiriche, scopriamo forti correlazioni positive tra regioni ad alta entropia e tre tipi di azioni di ragionamento esplorativo: (1) token cruciali che determinano o collegano passaggi logici, (2) azioni riflessive come l'autoverifica e la correzione, e (3) comportamenti rari poco esplorati dai LM di base. Motivati da ciò, introduciamo una modifica minima al RL standard con una sola riga di codice: arricchiamo la funzione di vantaggio con un termine basato sull'entropia. A differenza dei tradizionali metodi a massima entropia che incoraggiano l'esplorazione promuovendo l'incertezza, noi incoraggiamo l'esplorazione promuovendo catene di ragionamento più lunghe e profonde. In particolare, il nostro metodo ottiene guadagni significativi sulla metrica Pass@K — un stimatore del limite superiore delle capacità di ragionamento dei LM — anche quando valutato con valori di K estremamente grandi, spingendo i confini del ragionamento dei LM.
English
Balancing exploration and exploitation is a central goal in reinforcement learning (RL). Despite recent advances in enhancing language model (LM) reasoning, most methods lean toward exploitation, and increasingly encounter performance plateaus. In this work, we revisit entropy -- a signal of exploration in RL -- and examine its relationship to exploratory reasoning in LMs. Through empirical analysis, we uncover strong positive correlations between high-entropy regions and three types of exploratory reasoning actions: (1) pivotal tokens that determine or connect logical steps, (2) reflective actions such as self-verification and correction, and (3) rare behaviors under-explored by the base LMs. Motivated by this, we introduce a minimal modification to standard RL with only one line of code: augmenting the advantage function with an entropy-based term. Unlike traditional maximum-entropy methods which encourage exploration by promoting uncertainty, we encourage exploration by promoting longer and deeper reasoning chains. Notably, our method achieves significant gains on the Pass@K metric -- an upper-bound estimator of LM reasoning capabilities -- even when evaluated with extremely large K values, pushing the boundaries of LM reasoning.
PDF264June 18, 2025