ReDit: Belohnungsdithering zur Verbesserung der LLM-Politikoptimierung
ReDit: Reward Dithering for Improved LLM Policy Optimization
June 23, 2025
Autoren: Chenxing Wei, Jiarui Yu, Ying Tiffany He, Hande Dong, Yao Shu, Fei Yu
cs.AI
Zusammenfassung
DeepSeek-R1 hat die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung erfolgreich durch sein regelbasiertes Belohnungssystem verbessert. Obwohl es sich um ein „perfektes“ Belohnungssystem handelt, das Belohnungsmanipulation effektiv verhindert, sind solche Belohnungsfunktionen oft diskret. Unsere experimentellen Beobachtungen deuten darauf hin, dass diskrete Belohnungen zu Gradientenanomalien, instabiler Optimierung und langsamer Konvergenz führen können. Um dieses Problem zu lösen, schlagen wir ReDit (Reward Dithering) vor, eine Methode, die das diskrete Belohnungssignal durch das Hinzufügen von einfachem Zufallsrauschen dithert. Mit diesem gestörten Belohnungssignal werden explorative Gradienten kontinuierlich während des Lernprozesses bereitgestellt, was glattere Gradientenaktualisierungen ermöglicht und die Konvergenz beschleunigt. Das eingeführte Rauschen führt auch Stochastizität in flache Belohnungsregionen ein, was das Modell dazu anregt, neue Strategien zu erkunden und lokale Optima zu verlassen. Experimente über verschiedene Aufgaben hinweg demonstrieren die Wirksamkeit und Effizienz von ReDit. Im Durchschnitt erreicht ReDit eine Leistung, die mit der von Vanilla GRPO vergleichbar ist, jedoch mit nur etwa 10 % der Trainingsschritte, und zeigt darüber hinaus noch eine 4 %ige Leistungsverbesserung gegenüber Vanilla GRPO, wenn es für eine ähnliche Dauer trainiert wird. Visualisierungen bestätigen eine signifikante Minderung von Gradientenproblemen mit ReDit. Darüber hinaus werden theoretische Analysen bereitgestellt, um diese Vorteile weiter zu validieren.
English
DeepSeek-R1 has successfully enhanced Large Language Model (LLM) reasoning
capabilities through its rule-based reward system. While it's a ''perfect''
reward system that effectively mitigates reward hacking, such reward functions
are often discrete. Our experimental observations suggest that discrete rewards
can lead to gradient anomaly, unstable optimization, and slow convergence. To
address this issue, we propose ReDit (Reward Dithering), a method that dithers
the discrete reward signal by adding simple random noise. With this perturbed
reward, exploratory gradients are continuously provided throughout the learning
process, enabling smoother gradient updates and accelerating convergence. The
injected noise also introduces stochasticity into flat reward regions,
encouraging the model to explore novel policies and escape local optima.
Experiments across diverse tasks demonstrate the effectiveness and efficiency
of ReDit. On average, ReDit achieves performance comparable to vanilla GRPO
with only approximately 10% the training steps, and furthermore, still exhibits
a 4% performance improvement over vanilla GRPO when trained for a similar
duration. Visualizations confirm significant mitigation of gradient issues with
ReDit. Moreover, theoretical analyses are provided to further validate these
advantages.