ChatPaper.aiChatPaper

ReDit: Modulación de Recompensas para la Optimización Mejorada de Políticas en Modelos de Lenguaje

ReDit: Reward Dithering for Improved LLM Policy Optimization

June 23, 2025
Autores: Chenxing Wei, Jiarui Yu, Ying Tiffany He, Hande Dong, Yao Shu, Fei Yu
cs.AI

Resumen

DeepSeek-R1 ha logrado mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLM) mediante su sistema de recompensas basado en reglas. Aunque se trata de un sistema de recompensas "perfecto" que mitiga eficazmente el hackeo de recompensas, estas funciones de recompensa suelen ser discretas. Nuestras observaciones experimentales sugieren que las recompensas discretas pueden provocar anomalías en el gradiente, optimización inestable y convergencia lenta. Para abordar este problema, proponemos ReDit (Reward Dithering), un método que modula la señal de recompensa discreta añadiendo ruido aleatorio simple. Con esta recompensa perturbada, se proporcionan gradientes exploratorios de manera continua durante el proceso de aprendizaje, permitiendo actualizaciones de gradiente más suaves y acelerando la convergencia. El ruido inyectado también introduce estocasticidad en regiones de recompensa plana, incentivando al modelo a explorar políticas novedosas y escapar de óptimos locales. Los experimentos en diversas tareas demuestran la eficacia y eficiencia de ReDit. En promedio, ReDit alcanza un rendimiento comparable al GRPO estándar con solo aproximadamente el 10% de los pasos de entrenamiento, y además, muestra una mejora del 4% en el rendimiento sobre el GRPO estándar cuando se entrena durante un período similar. Las visualizaciones confirman una mitigación significativa de los problemas de gradiente con ReDit. Además, se proporcionan análisis teóricos para validar aún más estas ventajas.
English
DeepSeek-R1 has successfully enhanced Large Language Model (LLM) reasoning capabilities through its rule-based reward system. While it's a ''perfect'' reward system that effectively mitigates reward hacking, such reward functions are often discrete. Our experimental observations suggest that discrete rewards can lead to gradient anomaly, unstable optimization, and slow convergence. To address this issue, we propose ReDit (Reward Dithering), a method that dithers the discrete reward signal by adding simple random noise. With this perturbed reward, exploratory gradients are continuously provided throughout the learning process, enabling smoother gradient updates and accelerating convergence. The injected noise also introduces stochasticity into flat reward regions, encouraging the model to explore novel policies and escape local optima. Experiments across diverse tasks demonstrate the effectiveness and efficiency of ReDit. On average, ReDit achieves performance comparable to vanilla GRPO with only approximately 10% the training steps, and furthermore, still exhibits a 4% performance improvement over vanilla GRPO when trained for a similar duration. Visualizations confirm significant mitigation of gradient issues with ReDit. Moreover, theoretical analyses are provided to further validate these advantages.
PDF61June 24, 2025