Bootstrapping der Exploration durch gruppenbezogenes natürliches Sprachfeedback im Reinforcement Learning

Zusammenfassung

Große Sprachmodelle (LLMs) erhalten typischerweise vielfältiges natürliches Sprachfeedback durch Interaktion mit ihrer Umgebung. Allerdings stützen sich aktuelle Reinforcement-Learning (RL)-Algorithmen ausschließlich auf skalare Belohnungen, wodurch die reichhaltigen Informationen im NL-Feedback ungenutzt bleiben und eine ineffiziente Exploration resultiert. In dieser Arbeit schlagen wir GOLF vor, ein RL-Framework, das explizit gruppenbasiertes Sprachfeedback nutzt, um gezielte Exploration durch umsetzbare Verfeinerungen zu steuern. GOLF aggregiert zwei komplementäre Feedbackquellen: (i) externe Kritiken, die Fehler aufzeigen oder gezielte Korrekturen vorschlagen, und (ii) Versuche innerhalb der Gruppe, die alternative Teilideen und diverse Fehlermuster liefern. Diese gruppenbasierten Feedbacks werden aggregiert, um hochwertige Verfeinerungen zu erzeugen, die adaptiv als Off-Policy-Gerüste in das Training eingebracht werden, um gezielte Guidance in Regionen mit spärlicher Belohnung zu bieten. Gleichzeitig optimiert GOLF die Generierung und Verfeinerung innerhalb eines einheitlichen RL-Zyklus gemeinsam und schafft so einen sich selbst verstärkenden Kreislauf, der beide Fähigkeiten kontinuierlich verbessert. Experimente auf sowohl verifizierbaren als auch nicht-verifizierbaren Benchmarks zeigen, dass GOLF eine überlegene Leistung und Explorationseffizienz erreicht und dabei eine 2,2-fache Verbesserung der Probeneffizienz im Vergleich zu RL-Methoden erzielt, die ausschließlich mit skalaren Belohnungen trainiert wurden. Der Code ist verfügbar unter https://github.com/LuckyyySTA/GOLF.

English

Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.

Bootstrapping der Exploration durch gruppenbezogenes natürliches Sprachfeedback im Reinforcement Learning

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Zusammenfassung

Support