Despliegue de Un Solo Token: Guiando el Ajuste Fino Supervisado de Modelos de Lenguaje con Gradiente de Política

Resumen

El ajuste fino supervisado (SFT, por sus siglas en inglés) es el método predominante para adaptar modelos de lenguaje de gran escala (LLMs), aunque a menudo enfrenta dificultades en la generalización en comparación con el aprendizaje por refuerzo (RL). En este trabajo, proponemos que esta disparidad en el rendimiento no se debe únicamente a la función de pérdida, sino a una diferencia más fundamental: el SFT aprende de un conjunto de datos fijo y previamente recolectado, mientras que el RL utiliza datos generados bajo la política actual. Basándonos en esta hipótesis, introducimos el algoritmo de ajuste fino llamado "one-token rollout" (OTR), que guía el SFT mediante el método de gradiente de política. OTR reformula el proceso de aprendizaje autoregresivo al tratar la generación de cada token como una trayectoria de aprendizaje por refuerzo de un solo paso. En cada paso, realiza un "rollout" de Monte Carlo muestreando múltiples tokens candidatos de la distribución de la política actual. Luego, el token verdadero de los datos supervisados se utiliza para proporcionar una señal de recompensa a estas muestras. Guiado por el gradiente de política, nuestro algoritmo transforma datos supervisados estáticos y fuera de política en una señal dinámica y bajo política a nivel de token, capturando los beneficios de generalización del aprendizaje bajo política mientras evita el costoso proceso de generación de oraciones completas. A través de experimentos exhaustivos en un conjunto diverso de benchmarks desafiantes que abarcan razonamiento matemático, generación de código y razonamiento en dominios generales, demostramos que OTR supera consistentemente al SFT estándar. Nuestros hallazgos establecen a OTR como una alternativa poderosa y práctica para el ajuste fino de LLMs y proporcionan evidencia convincente de que la naturaleza bajo política de los datos es un factor crítico para la generalización, ofreciendo una nueva dirección prometedora para el ajuste fino de LLMs.

English

Supervised fine-tuning (SFT) is the predominant method for adapting large language models (LLMs), yet it often struggles with generalization compared to reinforcement learning (RL). In this work, we posit that this performance disparity stems not just from the loss function, but from a more fundamental difference: SFT learns from a fixed, pre-collected dataset, whereas RL utilizes on-policy data sampled from the current policy. Building on this hypothesis, we introduce one-token rollout (OTR), a novel fine-tuning algorithm that guides SFT with the policy gradient method. OTR reframes the autoregressive learning process by treating each token generation as a single-step reinforcement learning trajectory. At each step, it performs a Monte Carlo ``rollout'' by sampling multiple candidate tokens from the current policy's distribution. The ground-truth token from the supervised data is then used to provide a reward signal to these samples. Guided by policy gradient, our algorithm repurposes static, off-policy supervised data into a dynamic, on-policy signal at the token level, capturing the generalization benefits of on-policy learning while bypassing the costly overhead of full sentence generation. Through extensive experiments on a diverse suite of challenging benchmarks spanning mathematical reasoning, code generation, and general domain reasoning, we demonstrate that OTR consistently outperforms standard SFT. Our findings establish OTR as a powerful and practical alternative for fine-tuning LLMs and provide compelling evidence that the on-policy nature of data is a critical driver of generalization, offering a promising new direction for fine-tuning LLMs.

Despliegue de Un Solo Token: Guiando el Ajuste Fino Supervisado de Modelos de Lenguaje con Gradiente de Política

One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient

Resumen

Support