Erros de Superconfiança Exigem Correção Mais Forte: Penalidades de Confiança Assimétricas para Aprendizagem por Reforço

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se o paradigma dominante para aprimorar o raciocínio em Modelos de Linguagem de Grande Escala (LLMs). No entanto, os algoritmos padrão de RLVR sofrem de uma patologia bem documentada: embora melhorem a precisão Pass@1 por meio de uma amostragem mais aguçada, eles simultaneamente estreitam a fronteira de raciocínio do modelo e reduzem a diversidade das gerações. Identificamos uma causa fundamental que os métodos existentes negligenciam: a penalização uniforme de erros. As abordagens atuais – sejam métodos de filtragem de dados que selecionam *prompts* por dificuldade, ou esquemas de normalização de vantagem – tratam todos os *rollouts* incorretos dentro de um grupo de forma idêntica. Mostramos que essa uniformidade permite que erros superconfiantes (caminhos de raciocínio incorretos que o processo de RL reforçou espuriamente) persistam e monopolizem a massa de probabilidade, suprimindo, em última análise, trajetórias exploratórias válidas. Para resolver isso, propomos a Penalidade de Erro Assimétrica com Consciência de Confiança (ACE). A ACE introduz uma métrica de deslocamento de confiança por *rollout*, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), para modular dinamicamente as vantagens negativas. Teoricamente, demonstramos que o gradiente da ACE pode ser decomposto no gradiente de um regularizador seletivo restrito a erros superconfiantes, mais um residual bem caracterizado que modera parcialmente a força do regularizador. Realizamos extensivos experimentos de *fine-tuning* dos modelos Qwen2.5-Math-7B, Qwen3-8B-Base e Llama-3.1-8B-Instruct no conjunto de dados DAPO-Math-17K usando GRPO e DAPO dentro da estrutura VERL. Avaliados no MATH-500 e no AIME 2025, a ACE compõe-se perfeitamente com métodos existentes e melhora consistentemente todo o espectro Pass@k em todas as três famílias de modelos e *benchmarks*.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become the leading paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard RLVR algorithms suffer from a well-documented pathology: while they improve Pass@1 accuracy through sharpened sampling, they simultaneously narrow the model's reasoning boundary and reduce generation diversity. We identify a root cause that existing methods overlook: the uniform penalization of errors. Current approaches -- whether data-filtering methods that select prompts by difficulty, or advantage normalization schemes -- treat all incorrect rollouts within a group identically. We show that this uniformity allows overconfident errors (incorrect reasoning paths that the RL process has spuriously reinforced) to persist and monopolize probability mass, ultimately suppressing valid exploratory trajectories. To address this, we propose the Asymmetric Confidence-aware Error Penalty (ACE). ACE introduces a per-rollout confidence shift metric, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), to dynamically modulate negative advantages. Theoretically, we demonstrate that ACE's gradient can be decomposed into the gradient of a selective regularizer restricted to overconfident errors, plus a well-characterized residual that partially moderates the regularizer's strength. We conduct extensive experiments fine-tuning Qwen2.5-Math-7B, Qwen3-8B-Base, and Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO within the VERL framework. Evaluated on MATH-500 and AIME 2025, ACE composes seamlessly with existing methods and consistently improves the full Pass@k spectrum across all three model families and benchmarks.

Erros de Superconfiança Exigem Correção Mais Forte: Penalidades de Confiança Assimétricas para Aprendizagem por Reforço

Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Resumo

Support