Optimisation de la Politique Cible

Résumé

En apprentissage par renforcement (RL), étant donné une invite, nous échantillonnons un ensemble de complétions à partir d'un modèle et les notons. Deux questions se posent : quelles complétions devraient gagner en masse de probabilité, et comment les paramètres doivent-ils se déplacer pour réaliser ce changement ? Les méthodes standards de type "policy gradient" répondent aux deux questions simultanément, de sorte que la mise à jour peut dépasser ou ne pas atteindre l'objectif selon le taux d'apprentissage, l'écrêtage et d'autres choix d'optimiseur. Nous présentons l'Optimisation de Politique Cible (TPO), qui sépare les deux questions. Étant donné des complétions notées, TPO construit une distribution cible q_i ∝ p_i^{,ancien} exp(u_i) et ajuste la politique à celle-ci par entropie croisée. Le gradient de la perte sur les logits des complétions échantillonnées est p^θ - q, qui s'annule une fois que la politique correspond à la cible. Sur des bandits tabulaires, des tâches de séquence avec transformeurs, et du RLVR avec des LLMs de milliards de paramètres, TTO égalise les performances de PG, PPO, GRPO et DG sur les tâches faciles et les surpasse substantiellement dans le cadre de récompenses éparses. Le code est disponible à l'adresse https://github.com/JeanKaddour/tpo.

English

In RL, given a prompt, we sample a group of completions from a model and score them. Two questions follow: which completions should gain probability mass, and how should the parameters move to realize that change? Standard policy-gradient methods answer both at once, so the update can overshoot or undershoot depending on the learning rate, clipping, and other optimizer choices. We introduce Target Policy Optimization (TPO), which separates the two questions. Given scored completions, TPO constructs a target distribution q_i propto p_i^{,old} exp(u_i) and fits the policy to it by cross-entropy. The loss gradient on sampled-completion logits is p^θ- q, which vanishes once the policy matches the target. On tabular bandits, transformer sequence tasks, and billion-parameter LLM RLVR, TPO matches PG, PPO, GRPO, and DG on easy tasks and substantially outperforms them under sparse reward. Code is available at https://github.com/JeanKaddour/tpo.