強化学習におけるグループレベルの自然言語フィードバックを用いたブートストラップ探索
Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning
March 4, 2026
著者: Lei Huang, Xiang Cheng, Chenxiao Zhao, Guobin Shen, Junjie Yang, Xiaocheng Feng, Yuxuan Gu, Xing Yu, Bing Qin
cs.AI
要旨
大規模言語モデル(LLM)は通常、環境との相互作用を通じて多様な自然言語フィードバックを受け取る。しかし、現在の強化学習(RL)アルゴリズムはスカラー報酬のみに依存しており、自然言語フィードバックに含まれる豊富な情報が十分に活用されず、探索効率の低下を招いている。本研究では、グループレベルの言語フィードバックを明示的に活用し、実践的な改良を通じて標的型探索を導出するRLフレームワークGOLFを提案する。GOLFは二つの相補的フィードバック源を統合する:(i)誤りを特定し標的型修正を提案する外部批評、(ii)代替的部分アイデアと多様な失敗パターンを提供するグループ内試行。これらのグループレベルフィードバックを集約して高品質な改良案を生成し、スパース報酬領域において標的型ガイダンスを提供するオフポリシー足場として適応的に訓練に注入する。一方、GOLFは生成と改良を統一RLループ内で共同最適化し、両能力を継続的に改善する好循環を創出する。検証可能ベンチマークと非検証可能ベンチマーク双方での実験により、GOLFが優れた性能と探索効率を達成し、スカラー報酬のみで訓練したRL手法と比較してサンプル効率で2.2倍の改善を実現することを示す。コードはhttps://github.com/LuckyyySTA/GOLFで公開されている。
English
Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.