Bootstrapping van Verkenning met Groepsniveau Natuurlijke-Taal-Feedback in Versterkend Leren

Samenvatting

Grote taalmodellen (LLM's) ontvangen doorgaans diverse natuurlijke-taalfeedback (NL-feedback) via interactie met de omgeving. Huidige reinforcement learning (RL) algoritmen vertrouwen echter uitsluitend op scalaire beloningen, waardoor de rijke informatie in NL-feedback onderbenut blijft en dit leidt tot inefficiënte exploratie. In dit werk stellen we GOLF voor, een RL-raamwerk dat expliciet gebruikmaakt van groepsniveau taalfeedback om gerichte exploratie te sturen via uitvoerbare verfijningen. GOLF aggregeert twee complementaire feedbackbronnen: (i) externe kritieken die fouten aanwijzen of gerichte oplossingen voorstellen, en (ii) intra-groep pogingen die alternatieve deelideeën en diverse foutpatronen aanleveren. Deze groepsniveau feedback wordt samengevoegd om hoogwaardige verfijningen te produceren, die adaptief worden geïnjecteerd in de training als off-policy steigers om gerichte begeleiding te bieden in regio's met schaarse beloning. Tegelijkertijd optimaliseert GOLF gezamenlijk de generatie en verfijning binnen een verenigde RL-lus, waardoor een vicieuze cirkel ontstaat die beide capaciteiten continu verbetert. Experimenten op zowel verifieerbare als niet-verifieerbare benchmarks tonen aan dat GOLF superieure prestaties en exploratie-efficiëntie bereikt, met een 2,2 keer verbetering in steekproefefficiëntie vergeleken met RL-methoden die uitsluitend op scalaire beloningen zijn getraind. Code is beschikbaar op https://github.com/LuckyyySTA/GOLF.

English

Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.

Bootstrapping van Verkenning met Groepsniveau Natuurlijke-Taal-Feedback in Versterkend Leren

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Samenvatting

Support