Zielrichtlinienoptimierung

Zusammenfassung

Im Reinforcement Learning (RL) sampeln wir bei einem gegebenen Prompt eine Gruppe von Vervollständigungen aus einem Modell und bewerten sie. Daraus ergeben sich zwei Fragen: Welche Vervollständigungen sollten eine höhere Wahrscheinlichkeitsmasse erhalten, und wie sollten sich die Parameter bewegen, um diese Änderung zu realisieren? Standard-Policy-Gradienten-Methoden beantworten beide Fragen gleichzeitig, sodass das Update je nach Lernrate, Clipping und anderen Optimierer-Einstellungen zu groß oder zu klein ausfallen kann. Wir führen Target Policy Optimization (TPO) ein, das die beiden Fragen trennt. Bei gegebenen bewerteten Vervollständigungen konstruiert TPO eine Zielverteilung q_i ∝ p_i^{,alt} exp(u_i) und passt die Policy mittels Kreuzentropie daran an. Der Verlustgradient auf den Logits der gesampelten Vervollständigungen ist p^θ - q, der verschwindet, sobald die Policy dem Ziel entspricht. Bei tabellarischen Bandits, Transformer-Sequenzaufgaben und RLVR mit milliardenparametrigen LLMs erreicht TPO bei einfachen Aufgaben das Niveau von PG, PPO, GRPO und DG und übertrifft sie bei spärlicher Belohnung erheblich. Code ist verfügbar unter https://github.com/JeanKaddour/tpo.

English

In RL, given a prompt, we sample a group of completions from a model and score them. Two questions follow: which completions should gain probability mass, and how should the parameters move to realize that change? Standard policy-gradient methods answer both at once, so the update can overshoot or undershoot depending on the learning rate, clipping, and other optimizer choices. We introduce Target Policy Optimization (TPO), which separates the two questions. Given scored completions, TPO constructs a target distribution q_i propto p_i^{,old} exp(u_i) and fits the policy to it by cross-entropy. The loss gradient on sampled-completion logits is p^θ- q, which vanishes once the policy matches the target. On tabular bandits, transformer sequence tasks, and billion-parameter LLM RLVR, TPO matches PG, PPO, GRPO, and DG on easy tasks and substantially outperforms them under sparse reward. Code is available at https://github.com/JeanKaddour/tpo.