Übermütige Fehler benötigen stärkere Korrektur: Asymmetrische Konfidenzstrafen für bestärkendes Lernen

Zusammenfassung

Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als führendes Paradigma zur Verbesserung des logischen Denkens in großen Sprachmodellen (LLMs) etabliert. Standard-RLVR-Algorithmen leiden jedoch unter einer bekannten Pathologie: Während sie die Pass@1-Genauigkeit durch geschärftes Sampling verbessern, verengen sie gleichzeitig die Denkgrenze des Modells und reduzieren die Generierungsvielfalt. Wir identifizieren eine Ursache, die bestehende Methoden übersehen: die gleichmäßige Bestrafung von Fehlern. Aktuelle Ansätze – seien es Datenfilterungsmethoden, die Prompts nach Schwierigkeit auswählen, oder Advantage-Normalisierungsschemata – behandeln alle falschen Rollouts innerhalb einer Gruppe identisch. Wir zeigen, dass diese Gleichbehandlung es übermütigen Fehlern (falsche Denkpfade, die der RL-Prozess fälschlicherweise verstärkt hat) ermöglicht, zu persistieren und die Wahrscheinlichkeitsmasse zu monopolisieren, was letztlich gültige explorative Trajektorien unterdrückt. Um dies zu adressieren, schlagen wir die Asymmetric Confidence-aware Error Penalty (ACE) vor. ACE führt eine metrik für den Konfidenzversatz pro Rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), ein, um negative Advantages dynamisch zu modulieren. Theoretisch zeigen wir, dass der Gradient von ACE in den Gradienten eines selektiven Regularisierers, der auf übermütige Fehler beschränkt ist, plus ein wohldefiniertes Residuum zerlegt werden kann, das die Stärke des Regularisierers teilweise moderiert. Wir führen umfangreiche Experimente durch, bei denen wir Qwen2.5-Math-7B, Qwen3-8B-Base und Llama-3.1-8B-Instruct auf dem DAPO-Math-17K-Datensatz mit GRPO und DAPO innerhalb des VERL-Frameworks feinabstimmen. Ausgewertet auf MATH-500 und AIME 2025, ergänzt ACE nahtlos bestehende Methoden und verbessert konsistent das gesamte Pass@k-Spektrum über alle drei Modellfamilien und Benchmarks hinweg.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become the leading paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard RLVR algorithms suffer from a well-documented pathology: while they improve Pass@1 accuracy through sharpened sampling, they simultaneously narrow the model's reasoning boundary and reduce generation diversity. We identify a root cause that existing methods overlook: the uniform penalization of errors. Current approaches -- whether data-filtering methods that select prompts by difficulty, or advantage normalization schemes -- treat all incorrect rollouts within a group identically. We show that this uniformity allows overconfident errors (incorrect reasoning paths that the RL process has spuriously reinforced) to persist and monopolize probability mass, ultimately suppressing valid exploratory trajectories. To address this, we propose the Asymmetric Confidence-aware Error Penalty (ACE). ACE introduces a per-rollout confidence shift metric, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), to dynamically modulate negative advantages. Theoretically, we demonstrate that ACE's gradient can be decomposed into the gradient of a selective regularizer restricted to overconfident errors, plus a well-characterized residual that partially moderates the regularizer's strength. We conduct extensive experiments fine-tuning Qwen2.5-Math-7B, Qwen3-8B-Base, and Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO within the VERL framework. Evaluated on MATH-500 and AIME 2025, ACE composes seamlessly with existing methods and consistently improves the full Pass@k spectrum across all three model families and benchmarks.

Übermütige Fehler benötigen stärkere Korrektur: Asymmetrische Konfidenzstrafen für bestärkendes Lernen

Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Zusammenfassung

Support