Diversità o Precisione? Un'Analisi Approfondita della Predizione del Token Successivo

Abstract

Recenti progressi hanno dimostrato che l'apprendimento per rinforzo (RL) può migliorare significativamente le capacità di ragionamento dei grandi modelli linguistici (LLM). L'efficacia di tale addestramento RL, tuttavia, dipende in modo critico dallo spazio di esplorazione definito dalla distribuzione token-output del modello pre-addestrato. In questo articolo, esaminiamo la funzione di perdita di entropia incrociata standard, interpretandola come un caso specifico di ottimizzazione del gradiente della politica applicata in un episodio a singolo passo. Per studiare sistematicamente come la distribuzione pre-addestrata modella il potenziale di esplorazione per l'RL successivo, proponiamo un obiettivo di pre-addestramento generalizzato che adatta i principi dell'RL on-policy all'apprendimento supervisionato. Inquadrando la previsione del token successivo come un processo decisionale stocastico, introduciamo una strategia di modellazione della ricompensa che bilancia esplicitamente diversità e precisione. Il nostro metodo impiega un fattore di scala positivo della ricompensa per controllare la concentrazione di probabilità sui token di ground-truth e un meccanismo rank-aware che tratta in modo asimmetrico i token negativi di rango alto e basso. Ciò ci permette di rimodellare la distribuzione token-output pre-addestrata e investigare come fornire uno spazio di esplorazione più favorevole per l'RL, migliorando in ultima analisi le prestazioni di ragionamento end-to-end. Contrariamente all'intuizione che un'entropia di distribuzione più alta faciliti un'esplorazione efficace, scopriamo che l'imposizione di un prior orientato alla precisione produce uno spazio di esplorazione superiore per l'RL.

English

Recent advancements have shown that reinforcement learning (RL) can substantially improve the reasoning abilities of large language models (LLMs). The effectiveness of such RL training, however, depends critically on the exploration space defined by the pre-trained model's token-output distribution. In this paper, we revisit the standard cross-entropy loss, interpreting it as a specific instance of policy gradient optimization applied within a single-step episode. To systematically study how the pre-trained distribution shapes the exploration potential for subsequent RL, we propose a generalized pre-training objective that adapts on-policy RL principles to supervised learning. By framing next-token prediction as a stochastic decision process, we introduce a reward-shaping strategy that explicitly balances diversity and precision. Our method employs a positive reward scaling factor to control probability concentration on ground-truth tokens and a rank-aware mechanism that treats high-ranking and low-ranking negative tokens asymmetrically. This allows us to reshape the pre-trained token-output distribution and investigate how to provide a more favorable exploration space for RL, ultimately enhancing end-to-end reasoning performance. Contrary to the intuition that higher distribution entropy facilitates effective exploration, we find that imposing a precision-oriented prior yields a superior exploration space for RL.

Diversità o Precisione? Un'Analisi Approfondita della Predizione del Token Successivo

Diversity or Precision? A Deep Dive into Next Token Prediction

Abstract

Support