ResRL: Potenciación del Razonamiento en LLM mediante Aprendizaje por Refuerzo Residual con Proyección de Muestras Negativas

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) mejora el razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), pero generalmente exhibe una diversidad de generación limitada debido a la sobre-incentivización de las recompensas positivas. Aunque métodos como el Refuerzo con Muestras Negativas (NSR) mitigan este problema al ponderar más las penalizaciones de las muestras negativas, pueden suprimir las distribuciones semánticas compartidas entre respuestas positivas y negativas. Para potenciar la capacidad de razonamiento sin perder diversidad, este artículo propone el Aprendizaje por Refuerzo Residual con Proyección de Muestras Negativas (ResRL), que desacopla las distribuciones semánticas similares entre respuestas positivas y negativas. Teóricamente, vinculamos el Desplazamiento de Verosimilitud Perezosa (LLD) a la interferencia del gradiente principal negativo-positivo y derivamos un *proxy* de única pasada hacia adelante que acota superiormente la alineación de representaciones para guiar una reponderación conservadora de la ventaja. ResRL luego proyecta las representaciones ocultas de tokens negativos sobre un subespacio positivo de bajo rango basado en SVD y utiliza los residuos de la proyección para modular los gradientes negativos, mejorando el razonamiento mientras preserva la diversidad y superando a *baselines* sólidos en promedio a lo largo de doce benchmarks que abarcan Matemáticas, Código, Tareas de Agente y Llamadas a Funciones. Notablemente, ResRL supera a NSR en razonamiento matemático en un 9.4% en Avg@16 y un 7.0% en Pass@128. El código está disponible en https://github.com/1229095296/ResRL.git.

English

Reinforcement Learning with Verifiable Rewards (RLVR) enhances reasoning of Large Language Models (LLMs) but usually exhibits limited generation diversity due to the over-incentivization of positive rewards. Although methods like Negative Sample Reinforcement (NSR) mitigate this issue by upweighting penalty from negative samples, they may suppress the semantic distributions shared between positive and negative responses. To boost reasoning ability without losing diversity, this paper proposes negative sample projection Residual Reinforcement Learning (ResRL) that decouples similar semantic distributions among positive and negative responses. We theoretically link Lazy Likelihood Displacement (LLD) to negative-positive head-gradient interference and derive a single-forward proxy that upper-bounds representation alignment to guide conservative advantage reweighting. ResRL then projects negative-token hidden representations onto an SVD-based low-rank positive subspace and uses projection residuals to modulate negative gradients, improving reasoning while preserving diversity and outperforming strong baselines on average across twelve benchmarks spanning Mathematics, Code, Agent Tasks, and Function Calling. Notably, ResRL surpasses NSR on mathematical reasoning by 9.4\% in Avg@16 and 7.0\% in Pass@128. Code is available at https://github.com/1229095296/ResRL.git.

ResRL: Potenciación del Razonamiento en LLM mediante Aprendizaje por Refuerzo Residual con Proyección de Muestras Negativas

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

Resumen

Support