Однотокеновый rollout: Направление контролируемой тонкой настройки больших языковых моделей с помощью градиента политики
One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient
September 30, 2025
Авторы: Rui Ming, Haoyuan Wu, Shoubo Hu, Zhuolun He, Bei Yu
cs.AI
Аннотация
Настройка с учителем (SFT) является преобладающим методом адаптации больших языковых моделей (LLM), однако она часто уступает в обобщении по сравнению с обучением с подкреплением (RL). В данной работе мы предполагаем, что это различие в производительности связано не только с функцией потерь, но и с более фундаментальным различием: SFT обучается на фиксированном, заранее собранном наборе данных, тогда как RL использует данные, полученные в режиме реального времени из текущей политики. Основываясь на этой гипотезе, мы представляем алгоритм one-token rollout (OTR) — новый метод тонкой настройки, который направляет SFT с использованием метода градиента политики. OTR переосмысливает процесс авторегрессивного обучения, рассматривая генерацию каждого токена как одношаговую траекторию обучения с подкреплением. На каждом шаге выполняется «прогон» методом Монте-Карло, при котором из распределения текущей политики выбираются несколько кандидатных токенов. Затем токен из данных с учителем используется для предоставления сигнала вознаграждения этим образцам. Руководствуясь градиентом политики, наш алгоритм преобразует статические, заранее собранные данные с учителем в динамический сигнал на уровне токенов, что позволяет использовать преимущества обобщения, характерные для обучения на данных в режиме реального времени, избегая при этом затрат на генерацию полных предложений. В ходе обширных экспериментов на разнообразных сложных тестах, включая математические рассуждения, генерацию кода и общие рассуждения, мы демонстрируем, что OTR стабильно превосходит стандартный SFT. Наши результаты подтверждают, что OTR является мощной и практичной альтернативой для тонкой настройки LLM, а также предоставляют убедительные доказательства того, что использование данных в режиме реального времени является ключевым фактором обобщения, открывая перспективное новое направление для тонкой настройки LLM.
English
Supervised fine-tuning (SFT) is the predominant method for adapting large
language models (LLMs), yet it often struggles with generalization compared to
reinforcement learning (RL). In this work, we posit that this performance
disparity stems not just from the loss function, but from a more fundamental
difference: SFT learns from a fixed, pre-collected dataset, whereas RL utilizes
on-policy data sampled from the current policy. Building on this hypothesis, we
introduce one-token rollout (OTR), a novel fine-tuning algorithm that guides
SFT with the policy gradient method. OTR reframes the autoregressive learning
process by treating each token generation as a single-step reinforcement
learning trajectory. At each step, it performs a Monte Carlo ``rollout'' by
sampling multiple candidate tokens from the current policy's distribution. The
ground-truth token from the supervised data is then used to provide a reward
signal to these samples. Guided by policy gradient, our algorithm repurposes
static, off-policy supervised data into a dynamic, on-policy signal at the
token level, capturing the generalization benefits of on-policy learning while
bypassing the costly overhead of full sentence generation. Through extensive
experiments on a diverse suite of challenging benchmarks spanning mathematical
reasoning, code generation, and general domain reasoning, we demonstrate that
OTR consistently outperforms standard SFT. Our findings establish OTR as a
powerful and practical alternative for fine-tuning LLMs and provide compelling
evidence that the on-policy nature of data is a critical driver of
generalization, offering a promising new direction for fine-tuning LLMs.