ESPO: Proximale Policy Optimization mit frühzeitigem Stoppen

Zusammenfassung

Wenn ein großes Sprachmodell unter bestärkendem Lernen früh in einer Trajektorie einen falschen Denkschritt ausführt, zwingen Standardalgorithmen es dazu, bis zum maximalen Horizont weiter zu generieren, wobei Rechenleistung für Tokens aufgewendet wird, die niemals eine positive Belohnung erhalten, und die Schätzwerte des Vorteils durch Nachfehler-Rauschen verunreinigt werden. Wir schlagen ESPO (Early-Stopping Proximal Policy Optimization) vor, das Trajektorienfehler während der Generierung erkennt und Rollouts vorzeitig beendet. Bei jedem Generierungsschritt berechnet ESPO einen Ersatz-Regret unter ausschließlicher Verwendung der bereits während des Samplings berechneten Logits und bricht ab, wenn der geglättete kumulative Regret seine geschätzten Werte signifikant überschreitet. Abgebrochene Trajektorien werden als absorbierende Fehlerzustände mit einer terminalen Belohnung behandelt, wodurch negative Temporal-Difference (TD)-Fehler in der Nähe des erkannten Fehlerschritts konzentriert werden, ohne dass ein zusätzliches Belohnungsmodell oder menschliche Annotation erforderlich ist. Auf DeepSeek-R1-Distill-Qwen-7B, trainiert für mathematisches Denken, übertrifft ESPO PPO auf AIME 2024 (46,28 % gegenüber 45,25 %), AMC 2023 (85,83 % gegenüber 82,94 %) und MATH-500 (87,42 % gegenüber 85,43 %) und spart dabei kumulativ mehr als 20 % der Rollout-Tokens.

English

When a large language model under reinforcement learning commits a wrong reasoning step early in a trajectory, standard algorithms force it to keep generating until the maximum horizon, spending compute on tokens that never receive positive reward and polluting advantage estimates with post-failure noise. We propose ESPO (Early-Stopping Proximal Policy Optimization), which detects trajectory failure on-the-fly and terminates rollouts early. At each generation step, ESPO computes a surrogate regret using only the logits already computed during sampling, and terminates when the smoothed cumulative regret significantly exceeds its estimated values. Truncated trajectories are treated as absorbing failure states with a terminal reward, concentrating negative temporal-difference (TD) errors near the detected failure step without any additional reward model or human annotation. On DeepSeek-R1-Distill-Qwen-7B trained for mathematical reasoning, ESPO surpasses PPO on AIME~2024 (46.28% vs. 45.25%), AMC~2023 (85.83% vs. 82.94%), and MATH-500 (87.42% vs. 85.43%), while saving more than 20% rollout tokens cumulatively.