ChatPaper.aiChatPaper

Diversité ou Précision ? Une analyse approfondie de la prédiction du token suivant

Diversity or Precision? A Deep Dive into Next Token Prediction

December 28, 2025
papers.authors: Haoyuan Wu, Hai Wang, Jiajia Wu, Jinxiang Ou, Keyao Wang, Weile Chen, Zihao Zheng, Bei Yu
cs.AI

papers.abstract

Les récentes avancées ont montré que l'apprentissage par renforcement (RL) peut améliorer considérablement les capacités de raisonnement des grands modèles de langage (LLM). L'efficacité d'un tel entraînement par RL dépend cependant de manière cruciale de l'espace d'exploration défini par la distribution de sortie des tokens du modèle pré-entraîné. Dans cet article, nous revisitons la fonction de perte d'entropie croisée standard, en l'interprétant comme une instance spécifique de l'optimisation par gradient de stratégie appliquée dans un épisode à une seule étape. Pour étudier systématiquement comment la distribution pré-entraînée façonne le potentiel d'exploration pour le RL ultérieur, nous proposons un objectif de pré-entraînement généralisé qui adapte les principes du RL « on-policy » à l'apprentissage supervisé. En formulant la prédiction du token suivant comme un processus décisionnel stochastique, nous introduisons une stratégie de façonnage de la récompense qui équilibre explicitement la diversité et la précision. Notre méthode utilise un facteur d'échelle de récompense positif pour contrôler la concentration de probabilité sur les tokens de vérité terrain et un mécanisme sensible au rang qui traite de manière asymétrique les tokens négatifs bien classés et mal classés. Cela nous permet de remodeler la distribution de sortie des tokens pré-entraînée et d'étudier comment fournir un espace d'exploration plus favorable pour le RL, améliorant ainsi les performances de raisonnement de bout en bout. Contrairement à l'intuition selon laquelle une entropie de distribution plus élevée facilite une exploration efficace, nous constatons qu'imposer un prior axé sur la précision produit un espace d'exploration supérieur pour le RL.
English
Recent advancements have shown that reinforcement learning (RL) can substantially improve the reasoning abilities of large language models (LLMs). The effectiveness of such RL training, however, depends critically on the exploration space defined by the pre-trained model's token-output distribution. In this paper, we revisit the standard cross-entropy loss, interpreting it as a specific instance of policy gradient optimization applied within a single-step episode. To systematically study how the pre-trained distribution shapes the exploration potential for subsequent RL, we propose a generalized pre-training objective that adapts on-policy RL principles to supervised learning. By framing next-token prediction as a stochastic decision process, we introduce a reward-shaping strategy that explicitly balances diversity and precision. Our method employs a positive reward scaling factor to control probability concentration on ground-truth tokens and a rank-aware mechanism that treats high-ranking and low-ranking negative tokens asymmetrically. This allows us to reshape the pre-trained token-output distribution and investigate how to provide a more favorable exploration space for RL, ultimately enhancing end-to-end reasoning performance. Contrary to the intuition that higher distribution entropy facilitates effective exploration, we find that imposing a precision-oriented prior yields a superior exploration space for RL.
PDF41January 6, 2026