Diversidade ou Precisão? Uma Análise Profunda da Previsão do Próximo Token

Resumo

Avanços recentes demonstraram que o aprendizado por reforço (RL) pode melhorar substancialmente as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs). A eficácia desse treinamento por RL, no entanto, depende criticamente do espaço de exploração definido pela distribuição de saída de tokens do modelo pré-treinado. Neste artigo, revisitamos a função de perda de entropia cruzada padrão, interpretando-a como um caso específico de otimização por gradiente de política aplicada em um episódio de etapa única. Para estudar sistematicamente como a distribuição pré-treinada molda o potencial de exploração para o RL subsequente, propomos um objetivo de pré-treinamento generalizado que adapta os princípios de RL *on-policy* para o aprendizado supervisionado. Ao enquadrar a previsão do próximo token como um processo de decisão estocástico, introduzimos uma estratégia de modelagem de recompensa que equilibra explicitamente diversidade e precisão. Nosso método emprega um fator de escala de recompensa positivo para controlar a concentração de probabilidade nos tokens corretos e um mecanismo consciente da classificação que trata os tokens negativos de alta e baixa classificação de forma assimétrica. Isso nos permite remodelar a distribuição de saída de tokens pré-treinada e investigar como fornecer um espaço de exploração mais favorável para o RL, melhorando, em última instância, o desempenho de raciocínio de ponta a ponta. Contrariamente à intuição de que uma entropia de distribuição mais alta facilita a exploração eficaz, descobrimos que a imposição de um prior orientado à precisão produz um espaço de exploração superior para o RL.

English

Recent advancements have shown that reinforcement learning (RL) can substantially improve the reasoning abilities of large language models (LLMs). The effectiveness of such RL training, however, depends critically on the exploration space defined by the pre-trained model's token-output distribution. In this paper, we revisit the standard cross-entropy loss, interpreting it as a specific instance of policy gradient optimization applied within a single-step episode. To systematically study how the pre-trained distribution shapes the exploration potential for subsequent RL, we propose a generalized pre-training objective that adapts on-policy RL principles to supervised learning. By framing next-token prediction as a stochastic decision process, we introduce a reward-shaping strategy that explicitly balances diversity and precision. Our method employs a positive reward scaling factor to control probability concentration on ground-truth tokens and a rank-aware mechanism that treats high-ranking and low-ranking negative tokens asymmetrically. This allows us to reshape the pre-trained token-output distribution and investigate how to provide a more favorable exploration space for RL, ultimately enhancing end-to-end reasoning performance. Contrary to the intuition that higher distribution entropy facilitates effective exploration, we find that imposing a precision-oriented prior yields a superior exploration space for RL.

Diversidade ou Precisão? Uma Análise Profunda da Previsão do Próximo Token

Diversity or Precision? A Deep Dive into Next Token Prediction

Resumo

Support