Разнообразие или точность? Глубокий анализ предсказания следующего токена
Diversity or Precision? A Deep Dive into Next Token Prediction
December 28, 2025
Авторы: Haoyuan Wu, Hai Wang, Jiajia Wu, Jinxiang Ou, Keyao Wang, Weile Chen, Zihao Zheng, Bei Yu
cs.AI
Аннотация
Последние достижения показали, что обучение с подкреплением (RL) может значительно улучшить способности крупных языковых моделей (LLM) к рассуждениям. Однако эффективность такого RL-обучения критически зависит от пространства исследований, определяемого распределением токенов на выходе предварительно обученной модели. В данной статье мы переосмысливаем стандартную функцию потерь перекрестной энтропии, интерпретируя ее как частный случай оптимизации градиента политики, примененной в рамках одношагового эпизода. Чтобы систематически изучить, как предварительно обученное распределение формирует потенциал исследования для последующего RL, мы предлагаем обобщенную цель предварительного обучения, адаптирующую принципы RL на основе политики к обучению с учителем. Формулируя предсказание следующего токена как стохастический процесс принятия решений, мы вводим стратегию формирования вознаграждения, которая явно балансирует разнообразие и точность. Наш метод использует положительный масштабирующий коэффициент вознаграждения для контроля концентрации вероятности на эталонных токенах и рангово-зависимый механизм, который асимметрично обрабатывает токены с высоким и низким рейтингом. Это позволяет нам преобразовать предварительно обученное распределение токенов на выходе и исследовать, как обеспечить более благоприятное пространство исследований для RL, в конечном итоге повышая сквозную производительность рассуждений. Вопреки интуиции, что более высокая энтропия распределения способствует эффективному исследованию, мы обнаруживаем, что наложение априорного распределения, ориентированного на точность, создает превосходное пространство исследований для RL.
English
Recent advancements have shown that reinforcement learning (RL) can substantially improve the reasoning abilities of large language models (LLMs). The effectiveness of such RL training, however, depends critically on the exploration space defined by the pre-trained model's token-output distribution. In this paper, we revisit the standard cross-entropy loss, interpreting it as a specific instance of policy gradient optimization applied within a single-step episode. To systematically study how the pre-trained distribution shapes the exploration potential for subsequent RL, we propose a generalized pre-training objective that adapts on-policy RL principles to supervised learning. By framing next-token prediction as a stochastic decision process, we introduce a reward-shaping strategy that explicitly balances diversity and precision. Our method employs a positive reward scaling factor to control probability concentration on ground-truth tokens and a rank-aware mechanism that treats high-ranking and low-ranking negative tokens asymmetrically. This allows us to reshape the pre-trained token-output distribution and investigate how to provide a more favorable exploration space for RL, ultimately enhancing end-to-end reasoning performance. Contrary to the intuition that higher distribution entropy facilitates effective exploration, we find that imposing a precision-oriented prior yields a superior exploration space for RL.