Otimização da Política Alvo

Resumo

No RL, dado um prompt, amostramos um grupo de conclusões de um modelo e as pontuamos. Duas questões se seguem: quais conclusões devem ganhar massa de probabilidade e como os parâmetros devem se mover para realizar essa mudança? Os métodos padrão de política de gradiente (policy-gradient) respondem a ambas de uma vez, então a atualização pode superestimar ou subestimar dependendo da taxa de aprendizagem, recorte (clipping) e outras escolhas do otimizador. Introduzimos a Otimização de Política Alvo (Target Policy Optimization - TPO), que separa as duas questões. Dadas as conclusões pontuadas, o TPO constrói uma distribuição alvo q_i ∝ p_i^{antigo} exp(u_i) e ajusta a política a ela por meio de entropia cruzada. O gradiente da perda nos logits das conclusões amostradas é p^θ - q, que se anula uma vez que a política corresponde ao alvo. Em bandidos tabulares (tabular bandits), tarefas de sequência de transformadores e RLVR de LLMs de bilhões de parâmetros, o TPO iguala o PG, PPO, GRPO e DG em tarefas fáceis e supera substancialmente eles sob recompensa esparsa. O código está disponível em https://github.com/JeanKaddour/tpo.

English

In RL, given a prompt, we sample a group of completions from a model and score them. Two questions follow: which completions should gain probability mass, and how should the parameters move to realize that change? Standard policy-gradient methods answer both at once, so the update can overshoot or undershoot depending on the learning rate, clipping, and other optimizer choices. We introduce Target Policy Optimization (TPO), which separates the two questions. Given scored completions, TPO constructs a target distribution q_i propto p_i^{,old} exp(u_i) and fits the policy to it by cross-entropy. The loss gradient on sampled-completion logits is p^θ- q, which vanishes once the policy matches the target. On tabular bandits, transformer sequence tasks, and billion-parameter LLM RLVR, TPO matches PG, PPO, GRPO, and DG on easy tasks and substantially outperforms them under sparse reward. Code is available at https://github.com/JeanKaddour/tpo.