Jenseits der uniformen Token-Level-Trust-Region im Reinforcement Learning von LLMs

Zusammenfassung

Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) hat sich als Standard zur Verbesserung des logischen Denkens großer Sprachmodelle etabliert. Allerdings bleiben bestehende PPO-artige Vertrauensbereichmechanismen positionsunabhängig, indem sie für alle Token unabhängig voneinander einheitliche Schwellenwerte durchsetzen. Diese punktweise Behandlung steht in zweierlei Hinsicht im Widerspruch zur autoregressiven Generierung. Erstens ignorieren einheitliche Schwellenwerte die autoregressive Asymmetrie: Abweichungen in frühen Phasen verursachen eine kumulative Drift auf Sequenzebene, sodass statische Schwellenwerte frühe Abweichungen unzureichend regulieren und späte Erkundungsphasen übermäßig einschränken. Zweitens übersieht die isolierte Bewertung von Token-Divergenzen die kumulative Präfix-Divergenz, da unabhängig vom Grad der Abweichung des konditionierenden Verlaufs von der Rollout-Policy stets derselbe Divergenzspielraum gewährt wird. Um diese Einschränkung zu beheben, schlagen wir CPPO (Cumulative Prefix-divergence Policy Optimization) vor – eine Token-Maskierungsregel, die Aktualisierungen über zwei gekoppelte Mechanismen an eine endliche Horizont-Policy-Verbesserungsschranke anpasst. Erstens legt ein positionsgewichteter Schwellenwert an frühen Positionen, deren Effekte länger anhalten, strengere Grenzen fest und lockert die Beschränkungen für Token in späten Phasen. Zweitens erfasst ein kumulatives Präfixbudget historische Abweichungen und schränkt weitere Token-Divergenzen dynamisch ein, um kumulierende Fehler entlang des Präfixes zu verhindern. Empirisch verbessert CPPO die Trainingsstabilität und die Genauigkeit des logischen Denkens über verschiedene Modellgrößen hinweg erheblich.

English

Reinforcement learning with verifiable rewards (RLVR) has become standard for improving LLM reasoning. However, existing PPO-style trust-region mechanisms remain position-agnostic by enforcing uniform thresholds across all tokens independently. This pointwise treatment conflicts with autoregressive generation in two critical ways. First, uniform thresholds ignore autoregressive asymmetry. Early-stage deviations produce compounding sequence-level drift, causing static thresholds to under-regulate early divergence and excessively constrain late-stage exploration. Second, evaluating token-level divergence in isolation overlooks cumulative prefix drift, granting the same divergence allowance regardless of how far the conditioning history has already deviated from the rollout policy. To address this limitation, we propose CPPO (Cumulative Prefix-divergence Policy Optimization), a token-level masking rule that aligns updates with a finite-horizon policy-improvement bound via two coupled mechanisms. First, a position-weighted threshold imposes stricter limits at early positions whose effects persist longer, relaxing constraints for late-stage tokens. Second, a cumulative prefix budget tracks historical deviations, dynamically restricting further token-level deviation to prevent compounding errors along the prefix. Empirically, CPPO enhances training stability and significantly improves reasoning accuracy across various model scales.