Errori di Eccessiva Sicurezza Richiedono una Correzione Più Decisa: Penalità di Fiducia Asimmetriche per l'Apprendimento per Rinforzo

Abstract

L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è diventato il paradigma principale per potenziare il ragionamento nei Modelli Linguistici di Grande Dimensioni (LLM). Tuttavia, gli algoritmi RLVR standard soffrono di una patologia ben documentata: sebbene migliorino l'accuratezza Pass@1 attraverso un campionamento più selettivo, restringono simultaneamente i confini del ragionamento del modello e riducono la diversità delle generazioni. Identifichiamo una causa fondamentale trascurata dai metodi esistenti: la penalizzazione uniforme degli errori. Gli approcci attuali – che siano metodi di filtraggio dei dati che selezionano i prompt per difficoltà, o schemi di normalizzazione del vantaggio – trattano tutti i rollout errati all'interno di un gruppo in modo identico. Dimostriamo che questa uniformità permette a errori di eccessiva sicurezza (percorsi di ragionamento errati che il processo RL ha rinforzato in modo spurio) di persistere e monopolizzare la massa di probabilità, sopprimendo infine le traiettorie esplorative valide. Per affrontare questo problema, proponiamo la Penalità per Errore Asimmetrica e Consapevole della Confidenza (ACE). ACE introduce una metrica di scostamento della confidenza per ogni rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), per modulare dinamicamente i vantaggi negativi. Teoricamente, dimostriamo che il gradiente di ACE può essere scomposto nel gradiente di un regolarizzatore selettivo applicato solo agli errori di eccessiva sicurezza, più un residuo ben caratterizzato che mitiga parzialmente l'intensità del regolarizzatore. Conduciamo esperimenti estesi di fine-tuning di Qwen2.5-Math-7B, Qwen3-8B-Base e Llama-3.1-8B-Instruct sul dataset DAPO-Math-17K utilizzando GRPO e DAPO all'interno del framework VERL. Valutato su MATH-500 e AIME 2025, ACE si combina perfettamente con i metodi esistenti e migliora costantemente l'intero spettro Pass@k in tutte e tre le famiglie di modelli e benchmark.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become the leading paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard RLVR algorithms suffer from a well-documented pathology: while they improve Pass@1 accuracy through sharpened sampling, they simultaneously narrow the model's reasoning boundary and reduce generation diversity. We identify a root cause that existing methods overlook: the uniform penalization of errors. Current approaches -- whether data-filtering methods that select prompts by difficulty, or advantage normalization schemes -- treat all incorrect rollouts within a group identically. We show that this uniformity allows overconfident errors (incorrect reasoning paths that the RL process has spuriously reinforced) to persist and monopolize probability mass, ultimately suppressing valid exploratory trajectories. To address this, we propose the Asymmetric Confidence-aware Error Penalty (ACE). ACE introduces a per-rollout confidence shift metric, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), to dynamically modulate negative advantages. Theoretically, we demonstrate that ACE's gradient can be decomposed into the gradient of a selective regularizer restricted to overconfident errors, plus a well-characterized residual that partially moderates the regularizer's strength. We conduct extensive experiments fine-tuning Qwen2.5-Math-7B, Qwen3-8B-Base, and Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO within the VERL framework. Evaluated on MATH-500 and AIME 2025, ACE composes seamlessly with existing methods and consistently improves the full Pass@k spectrum across all three model families and benchmarks.

Errori di Eccessiva Sicurezza Richiedono una Correzione Più Decisa: Penalità di Fiducia Asimmetriche per l'Apprendimento per Rinforzo

Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Abstract

Support