Au-delà de la région de confiance uniforme au niveau des tokens dans l’apprentissage par renforcement des LLM

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu la norme pour améliorer le raisonnement des LLM. Cependant, les mécanismes de région de confiance de type PPO existants restent indépendants de la position en imposant des seuils uniformes à l'ensemble des jetons de manière indépendante. Ce traitement ponctuel entre en conflit avec la génération autorégressive de deux manières cruciales. Premièrement, les seuils uniformes ignorent l'asymétrie autorégressive. Les déviations précoces produisent une dérive cumulative au niveau de la séquence, ce qui fait que les seuils statiques sous-régulent la divergence précoce et contraignent excessivement l'exploration tardive. Deuxièmement, l'évaluation isolée de la divergence au niveau des jetons néglige la dérive cumulative du préfixe, accordant la même marge de divergence indépendamment de l'écart déjà accumulé entre l'historique de conditionnement et la politique de rollout. Pour pallier cette limitation, nous proposons CPPO (Cumulative Prefix-divergence Policy Optimization), une règle de masquage au niveau des jetons qui aligne les mises à jour sur une borne d'amélioration de politique à horizon fini via deux mécanismes couplés. Premièrement, un seuil pondéré par la position impose des limites plus strictes aux positions précoces dont les effets persistent plus longtemps, en assouplissant les contraintes pour les jetons tardifs. Deuxièmement, un budget de préfixe cumulatif suit les déviations historiques, en restreignant dynamiquement les écarts ultérieurs au niveau des jetons afin d'éviter des erreurs cumulatives le long du préfixe. Empiriquement, CPPO améliore la stabilité de l'entraînement et accroît significativement la précision du raisonnement à différentes échelles de modèle.

English

Reinforcement learning with verifiable rewards (RLVR) has become standard for improving LLM reasoning. However, existing PPO-style trust-region mechanisms remain position-agnostic by enforcing uniform thresholds across all tokens independently. This pointwise treatment conflicts with autoregressive generation in two critical ways. First, uniform thresholds ignore autoregressive asymmetry. Early-stage deviations produce compounding sequence-level drift, causing static thresholds to under-regulate early divergence and excessively constrain late-stage exploration. Second, evaluating token-level divergence in isolation overlooks cumulative prefix drift, granting the same divergence allowance regardless of how far the conditioning history has already deviated from the rollout policy. To address this limitation, we propose CPPO (Cumulative Prefix-divergence Policy Optimization), a token-level masking rule that aligns updates with a finite-horizon policy-improvement bound via two coupled mechanisms. First, a position-weighted threshold imposes stricter limits at early positions whose effects persist longer, relaxing constraints for late-stage tokens. Second, a cumulative prefix budget tracks historical deviations, dynamically restricting further token-level deviation to prevent compounding errors along the prefix. Empirically, CPPO enhances training stability and significantly improves reasoning accuracy across various model scales.