Otimização de Políticas sem Recorte para Modelos de Linguagem de Grande Porte

Resumo

O aprendizado por reforço tornou-se central para o pós-treinamento de grandes modelos de linguagem, no entanto, os algoritmos dominantes dependem de mecanismos de recorte (clipping) que introduzem problemas de otimização em escala, incluindo regiões de gradiente zero, exploração de recompensa (reward hacking) e instabilidade no treinamento. Propomos a Otimização de Política Livre de Recorte (CFPO), que substitui o recorte heurístico por uma penalidade quadrática convexa derivada de restrições de divergência de Variação Total, resultando em um objetivo diferenciável em toda parte que impõe atualizações de política estáveis sem limites rígidos. Avaliamos a CFPO em cenários de raciocínio e de alinhamento. No raciocínio, a CFPO equipara-se aos métodos baseados em recorte em benchmarks de avaliação, ao mesmo tempo que estende o regime de treinamento estável. No alinhamento, a CFPO mitiga a exploração de verbosidade e reduz a degradação de capacidade, ao mesmo tempo que alcança desempenho competitivo no seguimento de instruções. A CFPO requer apenas uma alteração de uma linha de código e nenhum hiperparâmetro adicional. Nossos resultados sugerem que a CFPO é uma alternativa promissora, de substituição direta, aos métodos baseados em recorte para o pós-treinamento de LLMs.

English

Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.

Otimização de Políticas sem Recorte para Modelos de Linguagem de Grande Porte

Clipping-Free Policy Optimization for Large Language Models

Resumo

Support