Além da Região de Confiança Uniforme em Nível de Token no Aprendizado por Reforço em LLMs

Resumo

Aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se padrão para melhorar o raciocínio de LLMs. No entanto, os mecanismos existentes de região de confiança do tipo PPO permanecem agnósticos à posição, impondo limites uniformes em todos os tokens de forma independente. Esse tratamento pontual entra em conflito com a geração autorregressiva de duas maneiras críticas. Primeiro, limites uniformes ignoram a assimetria autorregressiva. Desvios em estágios iniciais produzem desvio cumulativo em nível de sequência, fazendo com que limites estáticos sub-regulem a divergência inicial e restrinjam excessivamente a exploração em estágios finais. Segundo, avaliar a divergência em nível de token de forma isolada ignora o desvio cumulativo do prefixo, concedendo a mesma margem de divergência independentemente de quão distante o histórico de condicionamento já se desviou da política de rollout. Para abordar essa limitação, propomos CPPO (Otimização de Política por Divergência Acumulativa de Prefixo), uma regra de mascaramento em nível de token que alinha as atualizações com um limite de melhoria de política de horizonte finito por meio de dois mecanismos acoplados. Primeiro, um limiar ponderado por posição impõe limites mais rigorosos em posições iniciais, cujos efeitos persistem por mais tempo, relaxando as restrições para tokens em estágios finais. Segundo, um orçamento cumulativo de prefixo rastreia desvios históricos, restringindo dinamicamente desvios adicionais em nível de token para evitar erros cumulativos ao longo do prefixo. Empiricalmente, CPPO melhora a estabilidade do treinamento e aumenta significativamente a precisão do raciocínio em várias escalas de modelo.

English

Reinforcement learning with verifiable rewards (RLVR) has become standard for improving LLM reasoning. However, existing PPO-style trust-region mechanisms remain position-agnostic by enforcing uniform thresholds across all tokens independently. This pointwise treatment conflicts with autoregressive generation in two critical ways. First, uniform thresholds ignore autoregressive asymmetry. Early-stage deviations produce compounding sequence-level drift, causing static thresholds to under-regulate early divergence and excessively constrain late-stage exploration. Second, evaluating token-level divergence in isolation overlooks cumulative prefix drift, granting the same divergence allowance regardless of how far the conditioning history has already deviated from the rollout policy. To address this limitation, we propose CPPO (Cumulative Prefix-divergence Policy Optimization), a token-level masking rule that aligns updates with a finite-horizon policy-improvement bound via two coupled mechanisms. First, a position-weighted threshold imposes stricter limits at early positions whose effects persist longer, relaxing constraints for late-stage tokens. Second, a cumulative prefix budget tracks historical deviations, dynamically restricting further token-level deviation to prevent compounding errors along the prefix. Empirically, CPPO enhances training stability and significantly improves reasoning accuracy across various model scales.